論文の概要: From Competition to Coopetition: Coopetitive Training-Free Image Editing Based on Text Guidance
- arxiv url: http://arxiv.org/abs/2604.15948v1
- Date: Fri, 17 Apr 2026 11:10:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.885101
- Title: From Competition to Coopetition: Coopetitive Training-Free Image Editing Based on Text Guidance
- Title(参考訳): コンペティションからコペティションへ:テキスト誘導に基づくコペティティブトレーニングフリー画像編集
- Authors: Jinhao Shen, Haoqian Du, Xulu Zhang, Xiao-Yong Wei, Qing Li,
- Abstract要約: CoEditは、注意制御を競争から合弁交渉に転換する、新しいゼロショットフレームワークである。
本稿では,調和最大化問題として注意制御を再構成するために,分岐間の方向性エントロピー相互作用を定量化するデュアルエントロピー注意操作を提案する。
また,遅延表現を時間とともに動的に調整し,蓄積した編集誤差を最小限に抑えるために,エントロピーラテントリファインメント機構を提案する。
- 参考スコア(独自算出の注目度): 11.574335632043491
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-guided image editing, a pivotal task in modern multimedia content creation, has seen remarkable progress with training-free methods that eliminate the need for additional optimization. Despite recent progress, existing methods are typically constrained by a competitive paradigm in which the editing and reconstruction branches are independently driven by their respective objectives to maximize alignment with target and source prompts. The adversarial strategy causes semantic conflicts and unpredictable outcomes due to the lack of coordination between branches. To overcome these issues, we propose Coopetitive Training-Free Image Editing (CoEdit), a novel zero-shot framework that transforms attention control from competition to coopetitive negotiation, achieving editing harmony across spatial and temporal dimensions. Spatially, CoEdit introduces Dual-Entropy Attention Manipulation, which quantifies directional entropic interactions between branches to reformulate attention control as a harmony-maximization problem, eventually improving the localization of editable and preservable regions. Temporally, we present Entropic Latent Refinement mechanism to dynamically adjust latent representations over time, minimizing accumulated editing errors and ensuring consistent semantic transitions throughout the denoising trajectory. Additionally, we propose the Fidelity-Constrained Editing Score, a composite metric that jointly evaluates semantic editing and background fidelity. Extensive experiments on standard benchmarks demonstrate that CoEdit achieves superior performance in both editing quality and structural preservation, enhancing multimedia information utilization by enabling more effective interaction between visual and textual modalities. The code will be available at https://github.com/JinhaoShen/CoEdit.
- Abstract(参考訳): 現代マルチメディアコンテンツ作成における重要なタスクであるテキスト誘導画像編集は、追加の最適化の必要性を排除したトレーニング不要の手法によって目覚ましい進歩を遂げている。
最近の進歩にもかかわらず、既存の手法は典型的には、編集と再構成のブランチがそれぞれの目的によって独立に駆動され、ターゲットとソースのプロンプトとの整合性を最大化する、という競争パラダイムによって制約される。
対立戦略は、枝間の調整の欠如により意味的な対立や予測不可能な結果を引き起こす。
これらの課題を克服するために,コンペティティブな学習自由画像編集(CoEdit)を提案する。これは,注意制御を競争から協調的交渉へ変換し,空間的・時間的次元にわたる編集調和を実現する,新しいゼロショットフレームワークである。
空間的に、CoEditは二重エントロピー・アテンション・マニピュレーション(Dual-Entropy Attention Manipulation)を導入し、これは分岐間の方向性エントロピー相互作用を定量化し、調和最大化問題として注意制御を再構成し、最終的に編集可能な領域と保存可能な領域のローカライゼーションを改善する。
時間とともに潜在表現を動的に調整し、蓄積した編集エラーを最小限に抑え、認知軌道全体を通して一貫した意味的遷移を確実にするエントロピック潜在表現制限機構を提案する。
さらに,セマンティックな編集と背景の忠実さを共同で評価する合成計量であるFidelity-Constrained Editing Scoreを提案する。
標準ベンチマークでの大規模な実験により、CoEditは、編集品質と構造保存の両方において優れた性能を達成し、視覚とテキストのモダリティのより効果的な相互作用を可能にすることで、マルチメディア情報の利用を向上させることが示されている。
コードはhttps://github.com/JinhaoShen/CoEdit.comから入手できる。
関連論文リスト
- Shifting the Breaking Point of Flow Matching for Multi-Instance Editing [47.32746672482526]
本稿では,共同注意操作を分割し,インスタンス固有のテキスト命令と空間領域間の結合を強制する機構であるインスタンス・ディスタングル・アテンションを紹介する。
提案手法は,グローバルな出力コヒーレンスを保ちながら,編集のゆがみと局所性を促進し,単一パスのインスタンスレベルの編集を可能にする。
論文 参考訳(メタデータ) (2026-02-09T14:52:45Z) - The Devil is in Attention Sharing: Improving Complex Non-rigid Image Editing Faithfulness via Attention Synergy [71.39358554558667]
我々は,SynPSを紹介した。SynPSは位置埋め込みとセマンティック情報を利用して,忠実な非剛性画像編集を行う手法である。
本稿では,各段階で必要な編集規模を定量化する編集計測手法を提案する。
位置と意味を適応的に統合することで、SynPSはオーバー編集とアンダー編集の両方を効果的に避ける。
論文 参考訳(メタデータ) (2025-12-16T14:08:00Z) - EditInfinity: Image Editing with Binary-Quantized Generative Models [64.05135380710749]
画像編集のためのバイナリ量子化生成モデルのパラメータ効率適応について検討する。
具体的には、画像編集のためのバイナリ量子化生成モデルであるEmphInfinityを適応させるEditInfinityを提案する。
テキストの修正と画像スタイルの保存を促進させる,効率的かつ効果的な画像反転機構を提案する。
論文 参考訳(メタデータ) (2025-10-23T05:06:24Z) - ConsistEdit: Highly Consistent and Precise Training-free Visual Editing [17.162316662697965]
本稿では,MM-DiTに適した新しいアテンション制御手法であるConsistEditを提案する。
視覚のみの注意制御、マスク誘導型事前注意融合、クエリ、キー、バリュートークンの操作を区別する。
構造整合性および構造整合性の両方のシナリオを含む、幅広い画像およびビデオ編集タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-10-20T17:59:52Z) - LatentEdit: Adaptive Latent Control for Consistent Semantic Editing [24.414252461549555]
LatentEditは、現在の潜伏コードとソースイメージから反転した参照潜伏コードを組み合わせた適応潜伏融合フレームワークである。
提案するLatentEditは,8~15ステップでも最先端の手法よりも高い精度で,忠実度と編集可能性の最適なバランスを実現する。
論文 参考訳(メタデータ) (2025-08-30T15:47:03Z) - LORE: Latent Optimization for Precise Semantic Control in Rectified Flow-based Image Editing [0.276240219662896]
トレーニング不要で効率的な画像編集手法であるLOREを紹介する。
LOREは逆ノイズを直接最適化し、既存のアプローチの一般化と制御可能性の限界に対処する。
実験の結果,LOREはセマンティックアライメント,画像品質,背景忠実度において,強いベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2025-08-05T06:45:04Z) - Tuning-Free Image Editing with Fidelity and Editability via Unified Latent Diffusion Model [60.82962950960996]
拡散遅延最適化を行うチューニング不要なUnifyEditを導入する。
本研究では, 自己注意保持制約(SA)と相互注意アライメント制約(CA)の2つを開発し, テキストアライメントの強化を図る。
提案手法は,様々な編集作業における構造保存とテキストアライメントのバランスを保ち,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2025-04-08T01:02:50Z) - Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。