論文の概要: Training-Free Text-Guided Color Editing with Multi-Modal Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2508.09131v1
- Date: Tue, 12 Aug 2025 17:57:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.538011
- Title: Training-Free Text-Guided Color Editing with Multi-Modal Diffusion Transformer
- Title(参考訳): マルチモード拡散変換器を用いた学習自由テキストガイドカラー編集
- Authors: Zixin Yin, Xili Dai, Ling-Hao Chen, Deyu Zhou, Jianan Wang, Duomin Wang, Gang Yu, Lionel M. Ni, Heung-Yeung Shum,
- Abstract要約: トレーニング不要なカラー編集手法であるColorCtrlを提案する。
注目マップと値トークンを対象とする操作によって構造と色を分離することにより、精度と一貫性のある色編集を可能にする。
本手法は,FLUX.1 Kontext Max や GPT-4o Image Generation などの強力な商用モデルを上回る一貫性を持つ。
- 参考スコア(独自算出の注目度): 39.69251226828484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-guided color editing in images and videos is a fundamental yet unsolved problem, requiring fine-grained manipulation of color attributes, including albedo, light source color, and ambient lighting, while preserving physical consistency in geometry, material properties, and light-matter interactions. Existing training-free methods offer broad applicability across editing tasks but struggle with precise color control and often introduce visual inconsistency in both edited and non-edited regions. In this work, we present ColorCtrl, a training-free color editing method that leverages the attention mechanisms of modern Multi-Modal Diffusion Transformers (MM-DiT). By disentangling structure and color through targeted manipulation of attention maps and value tokens, our method enables accurate and consistent color editing, along with word-level control of attribute intensity. Our method modifies only the intended regions specified by the prompt, leaving unrelated areas untouched. Extensive experiments on both SD3 and FLUX.1-dev demonstrate that ColorCtrl outperforms existing training-free approaches and achieves state-of-the-art performances in both edit quality and consistency. Furthermore, our method surpasses strong commercial models such as FLUX.1 Kontext Max and GPT-4o Image Generation in terms of consistency. When extended to video models like CogVideoX, our approach exhibits greater advantages, particularly in maintaining temporal coherence and editing stability. Finally, our method also generalizes to instruction-based editing diffusion models such as Step1X-Edit and FLUX.1 Kontext dev, further demonstrating its versatility.
- Abstract(参考訳): 画像やビデオのテキスト誘導色編集は、基本的な未解決の問題であり、アルベド、光源色、周囲の照明など、微妙な色属性の操作が必要であり、幾何学、材料特性、光-物質相互作用の物理的整合性は保たれている。
既存のトレーニングフリーな手法は、編集タスクにまたがる幅広い適用性を提供するが、正確な色制御に苦慮し、しばしば編集された領域と非編集された領域の両方で視覚的不整合をもたらす。
そこで本研究では,現代多モード拡散変換器(MM-DiT)の注意機構を活用する,トレーニング不要なカラー編集手法であるColorCtrlを提案する。
注目マップと値トークンを対象とする操作によって構造と色を分離することにより,属性強度の単語レベル制御とともに,正確で一貫した色編集を可能にする。
提案手法は,プロンプトによって指定された意図された領域のみを修正し,無関係な領域を未対応にしておく。
SD3とFLUX.1-devの広範な実験により、ColorCtrlは既存のトレーニング不要のアプローチよりも優れており、編集品質と一貫性の両方において最先端のパフォーマンスを実現している。
さらに,FLUX.1のような強力な商用モデルを超えている。
Kontext Max と GPT-4o Image Generation の一貫性。
CogVideoXのようなビデオモデルに拡張すると、特に時間的コヒーレンスと編集安定性の維持において、我々のアプローチは大きなアドバンテージを示す。
最後に、本手法は、Step1X-EditやFLUX.1といった命令ベースの編集拡散モデルにも一般化される。
Kontext Devは、その汎用性をさらに実証する。
関連論文リスト
- IntrinsicEdit: Precise generative image manipulation in intrinsic space [53.404235331886255]
そこで本研究では,固有画像空間で動作する汎用的生成ワークフローを提案する。
我々はアイデンティティの保存と内在チャネルの絡み合いの鍵となる課題に対処する。
我々は,グローバル照明効果の自動分解による高精度かつ効率的な編集を可能にする。
論文 参考訳(メタデータ) (2025-05-13T18:24:15Z) - BrushEdit: All-In-One Image Inpainting and Editing [76.93556996538398]
BrushEditは、インペイントベースの命令誘導画像編集パラダイムである。
本研究では,MLLMとデュアルブランチ画像の描画モデルを統合することで,自由形式の命令編集を可能にするシステムを提案する。
本フレームワークは,MLLMとインパインティングモデルを効果的に組み合わせ,7つの指標で優れた性能を実現する。
論文 参考訳(メタデータ) (2024-12-13T17:58:06Z) - DreamColour: Controllable Video Colour Editing without Training [80.90808879991182]
直感的なインタフェースにより、正確な映像色編集を可能にする訓練不要のフレームワークを提案する。
色編集の空間的側面と時間的側面を分離することにより、ユーザの自然なワークフローをより良く整合させることができる。
当社のアプローチは、トレーニングや特別なハードウェアの必要性を排除しつつ、最先端の手法に適合または超越しています。
論文 参考訳(メタデータ) (2024-12-06T16:57:54Z) - ColorEdit: Training-free Image-Guided Color editing with diffusion model [23.519884152019642]
画像編集タスクにはテキスト・ツー・イメージ(T2I)拡散モデルが採用されており、顕著な有効性を示している。
しかし, テキストプロンプトから, 物体のクロスアテンションマップと新たな色属性との衝突や注意漏れにより, テキスト誘導画像編集法では物体の色が変化しない可能性がある。
本稿では,物体の色を微調整や訓練を必要とせず,手軽で安定的で効果的な画像誘導手法を提案する。
論文 参考訳(メタデータ) (2024-11-15T14:45:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。