論文の概要: Generative Visual Chain-of-Thought for Image Editing
- arxiv url: http://arxiv.org/abs/2603.01893v1
- Date: Mon, 02 Mar 2026 14:12:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.903058
- Title: Generative Visual Chain-of-Thought for Image Editing
- Title(参考訳): 画像編集のための生成的視覚的連鎖
- Authors: Zijin Yin, Tiankai Hang, Yiji Cheng, Shiyi Zhang, Runze He, Yu Xu, Chunyu Wang, Bing Li, Zheng Chang, Kongming Liang, Qinglin Lu, Zhanyu Ma,
- Abstract要約: 既存の画像編集手法は、複雑なシーンや微妙な空間的指示の下で、編集すべき場所を認識するのに苦労する。
この問題に対処するため,GVCoT(Generative Visual Chain-of-Thought)を提案する。
GVCoTは、まず空間的手がかりを生成してターゲット領域をローカライズし、次に編集を実行することで、ネイティブな視覚推論を行う。
- 参考スコア(独自算出の注目度): 48.64933075232273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing image editing methods struggle to perceive where to edit, especially under complex scenes and nuanced spatial instructions. To address this issue, we propose Generative Visual Chain-of-Thought (GVCoT), a unified framework that performs native visual reasoning by first generating spatial cues to localize the target region and then executing the edit. Unlike prior text-only CoT or tool-dependent visual CoT paradigms, GVCoT jointly optimizes visual tokens generated during the reasoning and editing phases in an end-to-end manner. This way fosters the emergence of innate spatial reasoning ability and enables more effective utilization of visual-domain cues. The main challenge of training GCVoT lies in the scarcity of large-scale editing data with precise edit region annotations; to this end, we construct GVCoT-Edit-Instruct, a dataset of 1.8M high-quality samples spanning 19 tasks. We adopt a progressive training strategy: supervised fine-tuning to build foundational localization ability in reasoning trace before final editing, followed by reinforcement learning to further improve reasoning and editing quality. Finally, we introduce SREdit-Bench, a new benchmark designed to comprehensively stress-test models under sophisticated scenes and fine-grained referring expressions. Experiments demonstrate that GVCoT consistently outperforms state-of-the-art models on SREdit-Bench and ImgEdit. We hope our GVCoT will inspire future research toward interpretable and precise image editing.
- Abstract(参考訳): 既存の画像編集手法は、複雑なシーンや微妙な空間的指示の下で、編集すべき場所を認識するのに苦労する。
この問題に対処するために、まず空間的手がかりを生成して対象領域をローカライズし、次に編集を実行することにより、ネイティブな視覚推論を行う統合フレームワークであるGenerative Visual Chain-of-Thought (GVCoT)を提案する。
従来のテキストのみのCoTやツール依存のビジュアルCoTパラダイムとは異なり、GVCoTは推論と編集フェーズで生成した視覚トークンをエンドツーエンドで共同で最適化する。
これにより、自然空間推論能力の出現が促進され、視覚領域の手がかりをより効果的に活用することができる。
GCVoTのトレーニングの主な課題は、正確な編集領域アノテーションによる大規模な編集データの不足にある。
我々は、最終編集の前にトレースを推論する基礎的な位置決め機能を構築するための微調整を指導し、さらに推論と編集の質をさらに向上させる強化学習を施す。
最後にSREdit-Benchを紹介する。SREdit-Benchは、洗練されたシーンときめ細かい参照表現の下で、包括的なストレステストモデルを構築するために設計された新しいベンチマークである。
実験により、GVCoTはSREdit-BenchとImgEditの最先端モデルより一貫して優れていることが示された。
私たちは、GVCoTが将来の研究を、解釈可能で正確な画像編集に刺激することを期待しています。
関連論文リスト
- InterCoG: Towards Spatially Precise Image Editing with Interleaved Chain-of-Grounding Reasoning [60.799998743918955]
複雑な現実世界のシーンにおける微細な画像編集のためのテキストビジョンインターリーブド・チェーン・オブ・グラウンド推論フレームワークを提案する。
InterCoGの重要な洞察は、まずテキスト内でのみオブジェクト位置推論を実行することである。
また,マルチモーダル・グラウンド・ライティング・アライメント・アライメントとマルチモーダル・グラウンド・ライティング・アライメント・アライメントの2つの補助的トレーニング・モジュールを提案する。
論文 参考訳(メタデータ) (2026-03-02T08:13:16Z) - DCEdit: Dual-Level Controlled Image Editing via Precisely Localized Semantics [71.78350994830885]
拡散モデルを用いたテキスト誘導画像編集における新しい手法を提案する。
本手法は,視覚的・テキスト的自己注意を用いて横断的意識マップを向上し,編集性能を向上させるための地域的手がかりとして機能する。
提案手法を他のDiTベースのアプローチと完全に比較するため,高解像度画像,長い記述テキスト,実世界の画像,新しいテキスト編集タスクを特徴とするRW-800ベンチマークを構築した。
論文 参考訳(メタデータ) (2025-03-21T02:14:03Z) - GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing [66.33454784945293]
Generation Chain-of-Thought(GoT)は、明示的な言語推論プロセスを通じて生成と編集を可能にする新しいパラダイムである。
GoTは従来のテキストから画像への生成と編集を推論誘導フレームワークに変換する。
論文 参考訳(メタデータ) (2025-03-13T17:59:59Z) - AdapEdit: Spatio-Temporal Guided Adaptive Editing Algorithm for
Text-Based Continuity-Sensitive Image Editing [24.9487669818162]
本稿では,適応的な画像編集を実現するための時間的ガイド付き適応編集アルゴリズムAdapEditを提案する。
我々のアプローチは、モデルの事前保存において大きな利点があり、モデルトレーニング、微調整された追加データ、最適化を必要としない。
提案手法は,様々な原画像や編集命令を対象とし,競争性能を実証し,従来の手法よりも優れていたことを示す。
論文 参考訳(メタデータ) (2023-12-13T09:45:58Z) - Customize your NeRF: Adaptive Source Driven 3D Scene Editing via
Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。
最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。
第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文 参考訳(メタデータ) (2023-12-04T06:25:06Z) - Forgedit: Text Guided Image Editing via Learning and Forgetting [17.26772361532044]
我々は Forgedit という新しいテキスト誘導画像編集手法を設計する。
まず,30秒で元の画像を再構成できる視覚言語共同最適化フレームワークを提案する。
次に,拡散モデルのテキスト埋め込み空間におけるベクトル投影機構を提案する。
論文 参考訳(メタデータ) (2023-09-19T12:05:26Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [115.49488548588305]
画像の編集のために、事前訓練された拡散モデルの驚くべき能力を活用することに重点が置かれている。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。