論文の概要: Shifting the Breaking Point of Flow Matching for Multi-Instance Editing
- arxiv url: http://arxiv.org/abs/2602.08749v1
- Date: Mon, 09 Feb 2026 14:52:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.306982
- Title: Shifting the Breaking Point of Flow Matching for Multi-Instance Editing
- Title(参考訳): 複数インスタンス編集におけるフローマッチングのブレークポイントのシフト
- Authors: Carmine Zaccagnino, Fabio Quattrini, Enis Simsar, Marta Tintoré Gazulla, Rita Cucchiara, Alessio Tonioni, Silvia Cascianelli,
- Abstract要約: 本稿では,共同注意操作を分割し,インスタンス固有のテキスト命令と空間領域間の結合を強制する機構であるインスタンス・ディスタングル・アテンションを紹介する。
提案手法は,グローバルな出力コヒーレンスを保ちながら,編集のゆがみと局所性を促進し,単一パスのインスタンスレベルの編集を可能にする。
- 参考スコア(独自算出の注目度): 47.32746672482526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Flow matching models have recently emerged as an efficient alternative to diffusion, especially for text-guided image generation and editing, offering faster inference through continuous-time dynamics. However, existing flow-based editors predominantly support global or single-instruction edits and struggle with multi-instance scenarios, where multiple parts of a reference input must be edited independently without semantic interference. We identify this limitation as a consequence of globally conditioned velocity fields and joint attention mechanisms, which entangle concurrent edits. To address this issue, we introduce Instance-Disentangled Attention, a mechanism that partitions joint attention operations, enforcing binding between instance-specific textual instructions and spatial regions during velocity field estimation. We evaluate our approach on both natural image editing and a newly introduced benchmark of text-dense infographics with region-level editing instructions. Experimental results demonstrate that our approach promotes edit disentanglement and locality while preserving global output coherence, enabling single-pass, instance-level editing.
- Abstract(参考訳): フローマッチングモデルは拡散の効率的な代替として最近登場し、特にテキスト誘導画像生成と編集において、連続時間ダイナミクスによる高速な推論を提供する。
しかし、既存のフローベースのエディタは、主にグローバルまたはシングルインストラクションの編集をサポートし、参照入力の複数の部分をセマンティックな干渉なしに独立して編集しなければならないマルチインスタンスシナリオと競合する。
我々は,この制限を,同時編集を絡めるグローバルな条件付速度場と共同注意機構の結果として認識する。
この問題に対処するために、我々は、速度場推定中に、インスタンス固有のテキスト命令と空間領域との結合を強制する共同注意操作を分割するメカニズムである、インスタンス・ディペンタングド・アテンション(Instance-Disentangled Attention)を導入する。
我々は,自然画像編集と地域レベルの編集命令を用いたテキストセンスインフォグラフィックのベンチマークを新たに導入した。
実験の結果,グローバルな出力コヒーレンスを保ちながら,アンタングル化や局所性が促進され,単一パスのインスタンスレベルの編集が可能となった。
関連論文リスト
- ConsistEdit: Highly Consistent and Precise Training-free Visual Editing [17.162316662697965]
本稿では,MM-DiTに適した新しいアテンション制御手法であるConsistEditを提案する。
視覚のみの注意制御、マスク誘導型事前注意融合、クエリ、キー、バリュートークンの操作を区別する。
構造整合性および構造整合性の両方のシナリオを含む、幅広い画像およびビデオ編集タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-10-20T17:59:52Z) - FlowDirector: Training-Free Flow Steering for Precise Text-to-Video Editing [2.7248421583285265]
FlowDirectorは、新しいインバージョンフリーのビデオ編集フレームワークである。
我々のフレームワークは、編集プロセスをデータ空間の直接進化としてモデル化する。
局所的かつ制御可能な編集を実現するために,注意誘導型マスキング機構を導入する。
論文 参考訳(メタデータ) (2025-06-05T13:54:40Z) - Tuning-Free Image Editing with Fidelity and Editability via Unified Latent Diffusion Model [60.82962950960996]
拡散遅延最適化を行うチューニング不要なUnifyEditを導入する。
本研究では, 自己注意保持制約(SA)と相互注意アライメント制約(CA)の2つを開発し, テキストアライメントの強化を図る。
提案手法は,様々な編集作業における構造保存とテキストアライメントのバランスを保ち,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2025-04-08T01:02:50Z) - Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - Instilling Multi-round Thinking to Text-guided Image Generation [72.2032630115201]
シングルラウンド世代は、特に靴やスリーブのようなきめ細かい変更の領域において、重要な詳細を見落としていることが多い。
既存の手法と互換性のある,新たな自己監督型正規化,すなわちマルチラウンド正規化を導入する。
修正順序が最終結果に概して影響を与えないという観察に基づいている。
論文 参考訳(メタデータ) (2024-01-16T16:19:58Z) - LIME: Localized Image Editing via Attention Regularization in Diffusion Models [69.33072075580483]
本稿では拡散モデルにおける局所化画像編集のためのLIMEを提案する。
LIMEは、ユーザが指定した関心領域(RoI)や追加のテキスト入力を必要としない。
そこで本研究では,RoIにおける非関係なクロスアテンションスコアをデノナイジングステップ中にペナライズし,局所的な編集を確実にする新しいクロスアテンション正規化手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T18:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。