論文の概要: Content-Adaptive Image Retouching Guided by Attribute-Based Text Representation
- arxiv url: http://arxiv.org/abs/2512.09580v1
- Date: Wed, 10 Dec 2025 12:15:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.51476
- Title: Content-Adaptive Image Retouching Guided by Attribute-Based Text Representation
- Title(参考訳): 属性ベーステキスト表現によるコンテンツ適応型画像修正
- Authors: Hancheng Zhu, Xinyu Liu, Rui Yao, Kunyang Sun, Leida Li, Abdulmotaleb El Saddik,
- Abstract要約: 本稿では,Attribute-based Text Representation (CA-ATP) によるコンテンツ適応型画像修正手法を提案する。
具体的には,複数のカラーマッピング関係を確立するために,一連の基底曲線を利用するコンテンツ適応型曲線マッピングモジュールを提案する。
さらに,複数の画像属性からテキスト表現を生成する属性テキスト予測モジュールを提案する。
- 参考スコア(独自算出の注目度): 53.196155487850746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image retouching has received significant attention due to its ability to achieve high-quality visual content. Existing approaches mainly rely on uniform pixel-wise color mapping across entire images, neglecting the inherent color variations induced by image content. This limitation hinders existing approaches from achieving adaptive retouching that accommodates both diverse color distributions and user-defined style preferences. To address these challenges, we propose a novel Content-Adaptive image retouching method guided by Attribute-based Text Representation (CA-ATP). Specifically, we propose a content-adaptive curve mapping module, which leverages a series of basis curves to establish multiple color mapping relationships and learns the corresponding weight maps, enabling content-aware color adjustments. The proposed module can capture color diversity within the image content, allowing similar color values to receive distinct transformations based on their spatial context. In addition, we propose an attribute text prediction module that generates text representations from multiple image attributes, which explicitly represent user-defined style preferences. These attribute-based text representations are subsequently integrated with visual features via a multimodal model, providing user-friendly guidance for image retouching. Extensive experiments on several public datasets demonstrate that our method achieves state-of-the-art performance.
- Abstract(参考訳): 画像のリタッチは、高品質なビジュアルコンテンツを実現する能力によって大きな注目を集めている。
既存のアプローチは主に画像全体の均一なピクセル単位の色マッピングに依存しており、画像の内容によって引き起こされる固有の色の変化を無視している。
この制限は、多様な色分布とユーザ定義スタイルの好みの両方に対応する適応的なリタッチを実現するための既存のアプローチを妨げる。
これらの課題に対処するために,Attribute-based Text Representation (CA-ATP) でガイドされた新しいコンテンツ適応型画像修正手法を提案する。
具体的には、一連の基底曲線を利用して複数の色マッピング関係を確立し、対応する重みマップを学習し、コンテンツ対応の色調整を可能にするコンテンツ適応型曲線マッピングモジュールを提案する。
提案モジュールは、画像内容内の色多様性をキャプチャし、類似の色値が空間的コンテキストに基づいて異なる変換を受けられるようにする。
さらに,複数の画像属性からテキスト表現を生成する属性テキスト予測モジュールを提案する。
これらの属性ベースのテキスト表現は、その後、マルチモーダルモデルを介して視覚的特徴と統合され、画像修正のためのユーザフレンドリーなガイダンスを提供する。
いくつかの公開データセットに対する大規模な実験により,本手法が最先端の性能を達成することを示す。
関連論文リスト
- RetouchLLM: Training-free Code-based Image Retouching with Vision Language Models [76.79706360982162]
トレーニング不要なホワイトボックス画像リタッチシステムであるRetouchLLMを提案する。
高解像度の画像に直接、解釈可能でコードベースのリタッチを実行する。
我々のフレームワークは、人間がマルチステップのリタッチを行う方法と同じような方法で、徐々に画像を強化する。
論文 参考訳(メタデータ) (2025-10-09T10:40:49Z) - Leveraging Semantic Attribute Binding for Free-Lunch Color Control in Diffusion Models [53.73253164099701]
拡散モデルにおいて、微調整なしで正確なRGBレベルの色制御を実現する、トレーニング不要なアプローチであるColorWaveを導入する。
我々は、カラーウェーブが、構造化された、色一貫性の拡散に基づく画像合成のための新しいパラダイムを確立することを実証した。
論文 参考訳(メタデータ) (2025-03-12T21:49:52Z) - FiVA: Fine-grained Visual Attribute Dataset for Text-to-Image Diffusion Models [112.94440113631897]
現在の方法では、ソース画像からアイデンティティとスタイルを抽出しようとする。
スタイル」は、テクスチャ、色、芸術的要素を含む広い概念であるが、照明や動力学など他の重要な要素をカバーしていない。
画像の美学を特定の視覚属性に分解するより効果的なアプローチを定式化し、ユーザーは異なる画像から照明、テクスチャ、ダイナミックスなどの特徴を適用できる。
論文 参考訳(メタデータ) (2024-12-10T17:02:58Z) - MultiColor: Image Colorization by Learning from Multiple Color Spaces [4.738828630428634]
MultiColorは、グレースケールイメージを自動的にカラー化する学習ベースの新しいアプローチである。
我々は、個々の色空間に専用の着色モジュール群を用いる。
これらの予測色チャネルは様々な色空間を表すため、相補的なネットワークは相補性を生かし、優雅で合理的な色付き画像を生成するように設計されている。
論文 参考訳(メタデータ) (2024-08-08T02:34:41Z) - Automatic Controllable Colorization via Imagination [55.489416987587305]
本稿では,反復的な編集と修正が可能な自動色付けフレームワークを提案する。
グレースケール画像内のコンテンツを理解することにより、トレーニング済みの画像生成モデルを用いて、同じコンテンツを含む複数の画像を生成する。
これらの画像は、人間の専門家の過程を模倣して、色付けの参考となる。
論文 参考訳(メタデータ) (2024-04-08T16:46:07Z) - Arbitrary Style Transfer via Multi-Adaptation Network [109.6765099732799]
所望のスタイル転送は、内容画像と参照されたスタイル絵が与えられた場合、そのスタイル絵の色調と鮮やかなストロークパターンで内容画像を描画する。
新たな不整合損失関数により,本ネットワークは,様々な入力画像に適応する主文パターンと正確なコンテンツ構造を抽出できる。
論文 参考訳(メタデータ) (2020-05-27T08:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。