論文の概要: Recolour What Matters: Region-Aware Colour Editing via Token-Level Diffusion
- arxiv url: http://arxiv.org/abs/2603.18466v1
- Date: Thu, 19 Mar 2026 03:53:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.950292
- Title: Recolour What Matters: Region-Aware Colour Editing via Token-Level Diffusion
- Title(参考訳): 地域対応カラー編集におけるToken-Level Diffusionの意義
- Authors: Yuqi Yang, Dongliang Chang, Yijia Ling, Ruoyi Du, Zhanyu Ma,
- Abstract要約: カラーは、イメージ生成において最も知覚的に健全だが最小限の制御可能な属性の1つである。
ColourCrafterは、色編集をグローバルトーン転送から構造化された地域対応生成プロセスに変換する。
ColourfulSetは、連続的および多彩なカラーバリエーションを備えた、高品質な画像ペアの大規模なデータセットです。
- 参考スコア(独自算出の注目度): 43.72039047537043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Colour is one of the most perceptually salient yet least controllable attributes in image generation. Although recent diffusion models can modify object colours from user instructions, their results often deviate from the intended hue, especially for fine-grained and local edits. Early text-driven methods rely on discrete language descriptions that cannot accurately represent continuous chromatic variations. To overcome this limitation, we propose ColourCrafter, a unified diffusion framework that transforms colour editing from global tone transfer into a structured, region-aware generation process. Unlike traditional colour driven methods, ColourCrafter performs token-level fusion of RGB colour tokens and image tokens in latent space, selectively propagating colour information to semantically relevant regions while preserving structural fidelity. A perceptual Lab-space Loss further enhances pixel-level precision by decoupling luminance and chrominance and constraining edits within masked areas. Additionally, we build ColourfulSet, a largescale dataset of high-quality image pairs with continuous and diverse colour variations. Extensive experiments demonstrate that ColourCrafter achieves state-of-the-art colour accuracy, controllability and perceptual fidelity in fine-grained colour editing. Our project is available at https://yangyuqi317.github.io/ColourCrafter.github.io/.
- Abstract(参考訳): カラーは、イメージ生成において最も知覚的に健全だが最小限の制御可能な属性の1つである。
最近の拡散モデルは、ユーザ命令からオブジェクトの色を変更することができるが、その結果は、特にきめ細かい編集や局所的な編集において、意図した色から逸脱することが多い。
初期のテキスト駆動方式は、連続的な色変化を正確に表現できない独立した言語記述に依存していた。
この制限を克服するために、カラー編集をグローバルトーン転送から構造化された地域対応生成プロセスに変換する統合拡散フレームワークColourCrafterを提案する。
従来のカラー駆動方式とは異なり、ColourCrafterはRGBカラートークンと画像トークンのトークンレベル融合を行い、構造的忠実性を維持しながら、色情報を意味的に関連する領域に選択的に伝播する。
知覚空間ロスは、輝度と彩色を分離し、マスク領域内での編集を制限することにより、ピクセルレベルの精度をさらに向上させる。
さらにColourfulSetは、連続的および多彩なカラーバリエーションを備えた高品質な画像ペアの大規模データセットである。
広汎な実験により、ColourCrafterはきめ細かい色編集において、最先端の色の精度、制御性、知覚の忠実さを実現している。
私たちのプロジェクトはhttps://yangyuqi317.github.io/ColourCrafter.github.io/で利用可能です。
関連論文リスト
- NumColor: Precise Numeric Color Control in Text-to-Image Generation [57.72106507860579]
テキストと画像のモデルは、自然言語の記述から画像を生成するのに優れているが、数値的な色を解釈できない。
我々は,複数の拡散アーキテクチャを横断する正確な数値色制御が可能なNumColorを提案する。
NumColorは、GenColorBenchベンチマークで色調和スコアを10-30倍改善しながら、5つのモデルで4-9倍の数値色精度を向上させる。
論文 参考訳(メタデータ) (2026-03-13T19:37:25Z) - Controllable-Continuous Color Editing in Diffusion Model via Color Mapping [73.62340517056619]
テキスト埋め込み空間と画像RGB値との対応性を明示的にモデル化するカラーマッピングモジュールを提案する。
ユーザーはターゲットのRGB範囲を指定することで、所望の範囲内で連続的な色の変化のある画像を生成することができる。
実験により,色の連続性と可制御性の観点から,本手法が良好に動作することを示した。
論文 参考訳(メタデータ) (2025-09-17T07:12:51Z) - Color Me Correctly: Bridging Perceptual Color Spaces and Text Embeddings for Improved Diffusion Generation [21.37070510103594]
既存のアプローチは、あいまいな色の記述を解決するために、クロスアテンション操作、参照画像、微調整に依存している。
本稿では,大規模言語モデル(LLM)を利用して色関連プロンプトを曖昧にすることで,色忠実度を高める訓練自由フレームワークを提案する。
提案手法はまず,テキストプロンプトにおけるあいまいな色条件を解決するために,大言語モデル(LLM)を用い,得られた色条件の空間的関係に基づいてテキスト埋め込みを洗練する。
論文 参考訳(メタデータ) (2025-09-12T08:44:22Z) - Semantic Palette-Guided Color Propagation [7.263538036771765]
従来のアプローチは、ピクセルの類似度を測定するために、色、テクスチャ、明度などの低レベルの視覚的手がかりに依存することが多い。
色伝搬に対する意味論的パレット誘導手法を提案する。
提案手法により,効率よくかつ高精度な画素レベルの色編集が可能となり,局所的な色変化がコンテンツ認識方式で伝播されることが保証される。
論文 参考訳(メタデータ) (2025-06-02T08:57:34Z) - Control Color: Multimodal Diffusion-based Interactive Image Colorization [81.68817300796644]
Control Color (Ctrl Color) は、事前訓練された安定拡散(SD)モデルを利用する多モードカラー化手法である。
ユーザのストロークをエンコードして、局所的な色操作を正確に行うための効果的な方法を提案する。
また、カラーオーバーフローと不正確な色付けの長年の問題に対処するために、自己注意に基づく新しいモジュールとコンテンツ誘導型変形可能なオートエンコーダを導入する。
論文 参考訳(メタデータ) (2024-02-16T17:51:13Z) - DiffColor: Toward High Fidelity Text-Guided Image Colorization with
Diffusion Models [12.897939032560537]
そこで我々はDiffColorと呼ばれる新しい手法を提案し、プロンプトテキストに条件付けされた鮮やかな色を復元する。
私たちはまず、CLIPベースのコントラスト損失を用いて色付き画像を生成するために、事前訓練されたテキスト・ツー・イメージ・モデルを微調整する。
次に、色付き画像とテキストプロンプトを整列した最適化されたテキスト埋め込みと、高品質な画像再構成を可能にする微調整拡散モデルを得る。
提案手法は,複数回の反復で鮮やかな多彩な色を生成でき,その構造と背景をそのままに保ちつつ,対象言語指導に適合させる。
論文 参考訳(メタデータ) (2023-08-03T09:38:35Z) - Name Your Colour For the Task: Artificially Discover Colour Naming via
Colour Quantisation Transformer [62.75343115345667]
そこで本研究では,色空間を定量化しつつ,画像上での認識を維持しつつ,色空間を定量化する新しい色量子化変換器CQFormerを提案する。
人工色システムと人間の言語における基本色用語との一貫性のある進化パターンを観察する。
我々のカラー量子化法は、画像記憶を効果的に圧縮する効率的な量子化法も提供する。
論文 参考訳(メタデータ) (2022-12-07T03:39:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。