論文の概要: InterCoG: Towards Spatially Precise Image Editing with Interleaved Chain-of-Grounding Reasoning
- arxiv url: http://arxiv.org/abs/2603.01586v1
- Date: Mon, 02 Mar 2026 08:13:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.757264
- Title: InterCoG: Towards Spatially Precise Image Editing with Interleaved Chain-of-Grounding Reasoning
- Title(参考訳): InterCoG:Interleaved Chain-of-Ground Reasoningによる空間的精密画像編集を目指して
- Authors: Yecong Wan, Fan Li, Chunwei Wang, Hao Wu, Mingwen Shao, Wangmeng Zuo,
- Abstract要約: 複雑な現実世界のシーンにおける微細な画像編集のためのテキストビジョンインターリーブド・チェーン・オブ・グラウンド推論フレームワークを提案する。
InterCoGの重要な洞察は、まずテキスト内でのみオブジェクト位置推論を実行することである。
また,マルチモーダル・グラウンド・ライティング・アライメント・アライメントとマルチモーダル・グラウンド・ライティング・アライメント・アライメントの2つの補助的トレーニング・モジュールを提案する。
- 参考スコア(独自算出の注目度): 60.799998743918955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emerging unified editing models have demonstrated strong capabilities in general object editing tasks. However, it remains a significant challenge to perform fine-grained editing in complex multi-entity scenes, particularly those where targets are not visually salient and require spatial reasoning. To this end, we propose InterCoG, a novel text-vision Interleaved Chain-of-Grounding reasoning framework for fine-grained image editing in complex real-world scenes. The key insight of InterCoG is to first perform object position reasoning solely within text that includes spatial relation details to explicitly deduce the location and identity of the edited target. It then conducts visual grounding via highlighting the editing targets with generated bounding boxes and masks in pixel space, and finally rewrites the editing description to specify the intended outcomes. To further facilitate this paradigm, we propose two auxiliary training modules: multimodal grounding reconstruction supervision and multimodal grounding reasoning alignment to enforce spatial localization accuracy and reasoning interpretability, respectively. We also construct GroundEdit-45K, a dataset comprising 45K grounding-oriented editing samples with detailed reasoning annotations, and GroundEdit-Bench for grounding-aware editing evaluation. Extensive experiments substantiate the superiority of our approach in highly precise edits under spatially intricate and multi-entity scenes.
- Abstract(参考訳): 統合編集モデルの創発は、一般的なオブジェクト編集タスクにおいて強力な機能を示している。
しかし、複雑な多目的シーン、特にターゲットが視覚的に健全ではなく空間的推論を必要とするシーンにおいて、きめ細かい編集を行うことは依然として重要な課題である。
そこで本研究では,複雑な実世界のシーンにおける微細な画像編集のためのテキストビジョンインターリーブド・チェーン・オブ・グラウンド推論フレームワークであるInterCoGを提案する。
InterCoGの重要な洞察は、まず、空間的関係の詳細を含むテキスト内でのみオブジェクト位置推論を行い、編集対象の位置とアイデンティティを明示的に推論することである。
そして、生成したバウンディングボックスとマスクで編集対象を強調表示し、最終的に編集記述を書き換えて、意図した結果を指定する。
このパラダイムをさらに促進するために、空間的局所化精度と推論可能性を向上させるために、マルチモーダルグラウンド化再構築監督とマルチモーダルグラウンド化推論アライメントという2つの補助的トレーニングモジュールを提案する。
また,グラウンディング・アウェア・編集評価のためのグラウンド編集-45Kと,詳細な推論アノテーションを用いた45Kグラウンド編集-45Kのデータセットを構築した。
広汎な実験は、空間的複雑で多義的なシーン下での高精度な編集において、我々のアプローチの優位性を裏付けるものである。
関連論文リスト
- Generative Visual Chain-of-Thought for Image Editing [48.64933075232273]
既存の画像編集手法は、複雑なシーンや微妙な空間的指示の下で、編集すべき場所を認識するのに苦労する。
この問題に対処するため,GVCoT(Generative Visual Chain-of-Thought)を提案する。
GVCoTは、まず空間的手がかりを生成してターゲット領域をローカライズし、次に編集を実行することで、ネイティブな視覚推論を行う。
論文 参考訳(メタデータ) (2026-03-02T14:12:52Z) - I2E: From Image Pixels to Actionable Interactive Environments for Text-Guided Image Editing [59.434028565445885]
I2Eは、画像編集を構造化された環境内の実行可能な相互作用プロセスとして再考する、新しい「分解・テーマ・アクション」パラダイムである。
I2EはDecomposerを使用して、非構造化画像を個別に操作可能なオブジェクト層に変換し、複雑な命令を解析するために、物理を意識したVision-Language-Action Agentを導入する。
I2Eは、複雑な構成命令の処理、物理的妥当性の維持、マルチターン編集安定性の確保において、最先端の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2026-01-07T09:29:57Z) - FlowDC: Flow-Based Decoupling-Decay for Complex Image Editing [52.54102743380658]
本稿では,複雑な編集を複数のサブ編集エフェクトに分離し,編集プロセス中に並列に重畳するFlowDCを提案する。
FlowDCは既存の方法に比べて優れた結果を示した。
論文 参考訳(メタデータ) (2025-12-12T09:08:39Z) - LayerEdit: Disentangled Multi-Object Editing via Conflict-Aware Multi-Layer Learning [34.08955594341648]
トレーニング不要な多層不整合編集フレームワークであるLayerEditを提案する。
正確なオブジェクト層分解とコヒーレント融合によって、コンフリクトフリーなオブジェクト層編集を可能にする。
実験では、既存の方法よりもLayerEditの方が優れており、前例のないオブジェクト内制御性とオブジェクト間コヒーレンスを示す。
論文 参考訳(メタデータ) (2025-11-11T13:45:06Z) - CompBench: Benchmarking Complex Instruction-guided Image Editing [63.347846732450364]
CompBenchは複雑な命令誘導画像編集のための大規模なベンチマークである。
本稿では,タスクパイプラインを調整したMLLM-ヒューマン協調フレームワークを提案する。
編集意図を4つの重要な次元に分割する命令分離戦略を提案する。
論文 参考訳(メタデータ) (2025-05-18T02:30:52Z) - Customize your NeRF: Adaptive Source Driven 3D Scene Editing via
Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。
最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。
第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文 参考訳(メタデータ) (2023-12-04T06:25:06Z) - Object-aware Inversion and Reassembly for Image Editing [61.19822563737121]
オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。
画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。
本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-18T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。