論文の概要: CARE-Edit: Condition-Aware Routing of Experts for Contextual Image Editing
- arxiv url: http://arxiv.org/abs/2603.08589v1
- Date: Mon, 09 Mar 2026 16:40:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:16.501725
- Title: CARE-Edit: Condition-Aware Routing of Experts for Contextual Image Editing
- Title(参考訳): CARE-Edit:コンテクスト画像編集の専門家の条件対応ルーティング
- Authors: Yucheng Wang, Zedong Wang, Yuetong Wu, Yue Ma, Dan Xu,
- Abstract要約: 本稿では,モデル計算を特定の編集能力と整合させる条件認識専門家(CARE-Edit)を提案する。
中心となるのは、4人の専門専門家に符号化された拡散トークンを割り当てる軽量の潜伏型ルータである。
実験は、文脈編集タスクにおけるCARE-Editの強いパフォーマンスを検証する。
- 参考スコア(独自算出の注目度): 17.372230178356357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified diffusion editors often rely on a fixed, shared backbone for diverse tasks, suffering from task interference and poor adaptation to heterogeneous demands (e.g., local vs global, semantic vs photometric). In particular, prevalent ControlNet and OmniControl variants combine multiple conditioning signals (e.g., text, mask, reference) via static concatenation or additive adapters which cannot dynamically prioritize or suppress conflicting modalities, thus resulting in artifacts like color bleeding across mask boundaries, identity or style drift, and unpredictable behavior under multi-condition inputs. To address this, we propose Condition-Aware Routing of Experts (CARE-Edit) that aligns model computation with specific editing competencies. At its core, a lightweight latent-attention router assigns encoded diffusion tokens to four specialized experts--Text, Mask, Reference, and Base--based on multi-modal conditions and diffusion timesteps: (i) a Mask Repaint module first refines coarse user-defined masks for precise spatial guidance; (ii) the router applies sparse top-K selection to dynamically allocate computation to the most relevant experts; (iii) a Latent Mixture module subsequently fuses expert outputs, coherently integrating semantic, spatial, and stylistic information to the base images. Experiments validate CARE-Edit's strong performance on contextual editing tasks, including erasure, replacement, text-driven edits, and style transfer. Empirical analysis further reveals task-specific behavior of specialized experts, showcasing the importance of dynamic, condition-aware processing to mitigate multi-condition conflicts.
- Abstract(参考訳): 統一拡散エディタは、タスクの干渉や不均一な要求(例えば、ローカル対グローバル、セマンティック対フォトメトリック)への適応が不十分な様々なタスクに対して、固定された共有バックボーンに依存していることが多い。
特に、一般的なControlNetとOmniControlの変種は、複数の条件信号(例えば、テキスト、マスク、参照)を静的結合または追加アダプタを介して組み合わせ、競合するモダリティを動的に優先順位付けまたは抑制できないため、マスク境界を越えた色出血、アイデンティティやスタイルドリフト、マルチ条件入力下での予測不可能な振る舞いなどのアーティファクトをもたらす。
そこで本研究では,モデル計算を特定の編集能力と整合させる条件対応エキスパートのルーティング(CARE-Edit)を提案する。
中心となるのは、ライトウェイトな遅延アテンションルータで、マルチモーダル条件と拡散タイムステップに基づいて、符号化された拡散トークンを4つの専門専門家(テキスト、マスク、参照、ベース)に割り当てる。
(i)Mask Repaintモジュールは、まず、粗いユーザ定義マスクを精細化し、正確な空間誘導を行う。
(ii) ルータは、最も関係のある専門家に計算を動的に割り当てるために、スパーストップK選択を適用します。
3) ラテントミキチャーモジュールはその後、専門家の出力を融合し、セマンティック、空間、スタイリスティック情報をベース画像に統合する。
実験では、消去、置換、テキスト駆動編集、スタイル転送など、コンテキスト編集タスクにおけるCARE-Editの強いパフォーマンスを検証する。
経験的分析により、専門専門家のタスク固有の振る舞いが明らかになり、マルチコンディションの衝突を軽減するための動的条件認識処理の重要性が示される。
関連論文リスト
- AnyMS: Bottom-up Attention Decoupling for Layout-guided and Training-free Multi-subject Customization [55.06425570300248]
我々はレイアウト誘導型マルチオブジェクトカスタマイズのためのトレーニングフリーフレームワークであるAnyMSを紹介する。
AnyMSはテキストプロンプト、主題画像、レイアウト制約という3つの入力条件を利用する。
AnyMSは最先端のパフォーマンスを達成し、複雑な構成をサポートし、より多くの課題にスケールする。
論文 参考訳(メタデータ) (2025-12-29T15:26:25Z) - Multi-Agent Amodal Completion: Direct Synthesis with Fine-Grained Semantic Guidance [17.81116161163605]
隠されたオブジェクトの見えない部分を生成するアモーダルコンプリートは、画像編集やARといったアプリケーションには不可欠である。
本稿では,これらの問題を克服するための先行的協調推論に基づく協調的マルチエージェント推論フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-22T13:20:06Z) - MDE-Edit: Masked Dual-Editing for Multi-Object Image Editing via Diffusion Models [10.798205956644317]
我々は,MDE-Edit と呼ばれる複雑な多目的シーンにおいて,高精度な局所化画像操作を可能にする,トレーニング不要な推論ステージ最適化手法を提案する。
大規模な実験により、MDE-Editは、編集精度と視覚的品質において最先端の手法よりも優れており、複雑な多目的画像操作タスクに対する堅牢なソリューションを提供する。
論文 参考訳(メタデータ) (2025-05-08T10:01:14Z) - Marmot: Object-Level Self-Correction via Multi-Agent Reasoning [55.74860093731475]
Marmotは、マルチオブジェクトの自己修正にマルチエージェント推論を活用する、新しくて一般化可能なフレームワークである。
Marmotは、画像生成タスクにおけるオブジェクトカウント、属性割り当て、空間関係の精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-04-10T16:54:28Z) - Disentangling Instruction Influence in Diffusion Transformers for Parallel Multi-Instruction-Guided Image Editing [26.02149948089938]
Instruction Influence Disentanglement (IID) は,複数命令の並列実行を可能にする新しいフレームワークである。
我々は、DiTにおける自己注意機構を分析し、各命令の影響を解消するために、命令固有の注意マスクを導出する。
IIDは、既存のベースラインと比較して、忠実度と命令完了性を改善しながら拡散ステップを削減する。
論文 参考訳(メタデータ) (2025-04-07T07:26:25Z) - Mask Factory: Towards High-quality Synthetic Data Generation for Dichotomous Image Segmentation [70.95380821618711]
Dichotomous Image (DIS) タスクは高度に正確なアノテーションを必要とする。
現在の生成モデルとテクニックは、シーンのずれ、ノイズによるエラー、限られたトレーニングサンプルの変動といった問題に苦慮している。
多様な正確なデータセットを生成するためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2024-12-26T06:37:25Z) - Addressing Text Embedding Leakage in Diffusion-based Image Editing [33.1686050396517]
本稿では属性リークに対処するフレームワークであるAttribute-Leakage-free Editing (ALE)を紹介する。
ALEは、オブジェクト制限埋め込み(ORE)とテキスト埋め込みのアンタングル、空間的に正確に注意を向けるRGB-CAM(Regional-Guided Blending for Cross-Attention Masking)、非編集コンテンツを保存するためにバックグラウンドブレンディング(Backside Blending)を組み合わせる。
論文 参考訳(メタデータ) (2024-12-06T02:10:07Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。