論文の概要: Beyond Textual CoT: Interleaved Text-Image Chains with Deep Confidence Reasoning for Image Editing
- arxiv url: http://arxiv.org/abs/2510.08157v1
- Date: Thu, 09 Oct 2025 12:36:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.07428
- Title: Beyond Textual CoT: Interleaved Text-Image Chains with Deep Confidence Reasoning for Image Editing
- Title(参考訳): テキストCoTを超える: 画像編集のための深層信頼推論を用いたインターリーブテキストイメージチェイン
- Authors: Zhentao Zou, Zhengrong Yue, Kunpeng Du, Binlei Bao, Hanting Li, Haizhen Xie, Guozheng Xu, Yue Zhou, Yali Wang, Jie Hu, Xue Jiang, Xinghao Chen,
- Abstract要約: CoT(Chain-of-Thought)は、複雑なビジュアルレイアウトを表現する能力に制限がある。
本稿では,視覚的編集過程を純粋にテキストベースの推論からインターリーブな論理へとシフトさせるためのマルチモーダル推論編集(MURE)を提案する。
14Kの高品質な編集例を含む最初のCoT-Edit-14Kデータセットをリリースする。
- 参考スコア(独自算出の注目度): 32.36623938012829
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image editing with natural language has gained significant popularity, yet existing methods struggle with intricate object intersections and fine-grained spatial relationships due to the lack of an explicit reasoning process. While Chain-of-Thought (CoT) has been explored to enhance reasoning, purely textual CoT or CoT augmented with coordinate information is fundamentally limited in its ability to represent intricate visual layouts and lacks the necessary visual cues to guide the generation of fine-grained, pixel-level details. To address these challenges, we propose Multimodal Reasoning Edit (MURE), a novel framework that shifts the visual editing process from purely text-based reasoning to a series of interleaved textual and visual rationales. Our framework performs image editing using a natively multimodal, interleaved text-image CoT. This approach generates a step-by-step chain of reasoning where a textual description is followed by a corresponding visual cue, such as a positional mask that defined intended edited regions or a representation of new content. Furthermore, to mitigate the hallucination phenomenon of large language models, we introduce Multimodal Deep Confidence (MMDC) reasoning paradigm. This paradigm explores a tree of visual reasoning paths at each step. By pruning low-quality branches using a deep confidence score from a reward model, it ensures the model consistently follows a high-quality trajectory towards the final edited result. The proposed method decomposes complex editing tasks into interdependent sub-tasks, achieving greater precision at each stage and yielding high-fidelity edited results. We define the formulation for interleaved text-image chains and release the first CoT-Edit-14K dataset, comprising 14K high-quality editing examples. Extensive experiments show that our method yields significant improvements across three image editing benchmarks.
- Abstract(参考訳): 自然言語による画像編集は非常に人気があるが、既存の手法では、明示的な推論プロセスが欠如しているため、複雑なオブジェクトの交叉やきめ細かな空間的関係に苦慮している。
CoT(Chain-of-Thought)は推論を強化するために研究されているが、コーディネート情報を備えた純粋テキストCoTまたはCoTは、複雑な視覚レイアウトを表現する能力に基本的に制限されており、細粒度でピクセルレベルの細部の生成を導くために必要な視覚的手がかりが欠如している。
これらの課題に対処するため、我々は、視覚編集プロセスを純粋にテキストベースの推論から、インターリーブされたテキストと視覚的理性へとシフトさせる新しいフレームワークであるMultimodal Reasoning Edit (MURE)を提案する。
本フレームワークは,ネイティブなマルチモーダル・インターリーブテキストイメージCoTを用いて画像編集を行う。
このアプローチは、意図された編集領域を定義した位置マスクや新しいコンテンツの表現など、テキスト記述に対応する視覚的キューが続く、推論のステップバイステップの連鎖を生成する。
さらに,大規模言語モデルの幻覚現象を軽減するために,マルチモーダルディープ・コンピデンス(MMDC)推論パラダイムを導入する。
このパラダイムは、各ステップで視覚的推論パスのツリーを探索する。
低品質の枝を報酬モデルから深い信頼スコアを用いて刈り取ることにより、モデルが最終編集結果への高品質な軌道を一貫して従うことが保証される。
提案手法は,複雑な編集タスクを相互依存のサブタスクに分解し,各ステージで高い精度を実現し,高忠実度編集結果を得る。
インターリーブされたテキストイメージチェーンの定式化を定義し,14Kの高品質な編集例を含む最初のCoT-Edit-14Kデータセットをリリースする。
大規模な実験により,3つの画像編集ベンチマークにおいて大きな改善が得られた。
関連論文リスト
- Vision-guided and Mask-enhanced Adaptive Denoising for Prompt-based Image Editing [28.904419606450876]
視覚誘導・マスク強調適応編集法(ViMAEdit)を提案する。
まず,画像の埋め込みを明示的なガイダンスとして活用し,従来のテキストのプロンプトに基づく記述プロセスを強化することを提案する。
第2に,自己注意型反復編集領域接地戦略を考案する。
論文 参考訳(メタデータ) (2024-10-14T13:41:37Z) - Text Guided Image Editing with Automatic Concept Locating and Forgetting [27.70615803908037]
画像中の潜在的なターゲット概念を特定するために,Locate and Forget (LaF) と呼ばれる新しい手法を提案する。
本手法はベースラインと比較して,テキスト誘導画像編集作業において質的かつ定量的に優位性を示す。
論文 参考訳(メタデータ) (2024-05-30T05:36:32Z) - Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。
本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。
理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T15:01:16Z) - Instilling Multi-round Thinking to Text-guided Image Generation [72.2032630115201]
シングルラウンド世代は、特に靴やスリーブのようなきめ細かい変更の領域において、重要な詳細を見落としていることが多い。
既存の手法と互換性のある,新たな自己監督型正規化,すなわちマルチラウンド正規化を導入する。
修正順序が最終結果に概して影響を与えないという観察に基づいている。
論文 参考訳(メタデータ) (2024-01-16T16:19:58Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [12.057465578064345]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - Direct Inversion: Optimization-Free Text-Driven Real Image Editing with
Diffusion Models [0.0]
本稿では,テキストプロンプトを介し,複雑な非厳密な編集を1つの実画像に適用する最適化フリーでゼロな微調整フレームワークを提案する。
高品質,多様性,セマンティック・コヒーレント,忠実な実画像編集において,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-11-15T01:07:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。