論文の概要: ETCHR: Editing To Clarify and Harness Reasoning
- arxiv url: http://arxiv.org/abs/2605.23897v1
- Date: Fri, 22 May 2026 17:58:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.462402
- Title: ETCHR: Editing To Clarify and Harness Reasoning
- Title(参考訳): ETCHR: 明確化とハーネス推論のための編集
- Authors: Beichen Zhang, Yuhong Liu, Jinsong Li, Yuhang Zang, Jiaqi Wang, Dahua Lin,
- Abstract要約: ETCHR (Editing To Clarify and Harness Reasoning) は質問条件付き推論対応画像エディタである。
2つのギャップをターゲットとした2段階のレシピでトレーニングされている: 教師付き微調整によるイミテーションの推論、VLM由来の報酬による修正精度と下流の推論精度の推論。
エディタは分離されているため、ETCHRは異なるオープンソースおよびクローズドソースのMLLMをトレーニングなしでプラグインする。
- 参考スコア(独自算出の注目度): 70.02956047187827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models have advanced visual reasoning, yet a purely textual chain of thought remains a bottleneck for questions that require fine-grained focus or view transformations. The ''think with images'' paradigm narrows this gap, but existing approaches are either constrained by fixed predefined toolkits or produce noisy intermediate images from unified multimodal methods. We pursue a third option: using a dedicated image editing model and decouple it with an understanding model. However, off-the-shelf image editors fail as reasoning assistants with two complementary gaps: a language-side gap, where editors trained as passive instruction-followers cannot map an abstract question to an appropriate visual transformation, and a generation-side gap, where edit correctness degrades as reasoning depth grows. Guided by this analysis, we introduce ETCHR (Editing To Clarify and Harness Reasoning), a question-conditioned, reasoning-aware image editor decoupled from the downstream understanding model and trained with a two-stage recipe targeted at the two gaps: Reasoning Imitation via supervised fine-tuning on edit trajectories, followed by Reasoning Enhancement with VLM-derived rewards for edit correctness and downstream reasoning accuracy. Since the editor is decoupled, ETCHR plugs into different open- and closed-source MLLMs in a training-free manner. Across five task families (fine-grained perception, chart understanding, logic reasoning, jigsaw restoration, and 3D understanding), ETCHR raises average Pass@1 from 55.95 to 60.77 (+4.82) with Qwen3-VL-8B, from 65.08 to 70.55 (+5.47) with Gemini-3.1-Flash-Lite, and from 76.55 to 81.16 (+4.61) with the 1T-parameter MoE model Kimi K2.5.
- Abstract(参考訳): マルチモーダルな大規模言語モデルには高度な視覚的推論があるが、純粋にテキストによる思考の連鎖は、きめ細かい焦点やビュー変換を必要とする質問のボトルネックである。
のパラダイムは、このギャップを狭めるが、既存のアプローチは、固定された事前定義されたツールキットによって制約されるか、統一されたマルチモーダルメソッドからノイズの多い中間画像を生成する。
第3の選択肢は、専用の画像編集モデルを使用して、それを理解モデルで分離することである。
しかし、既成のイメージエディターは、2つの補完的なギャップを持つ推論アシスタントとして失敗する:言語側ギャップ、受動命令フォロワーとして訓練されたエディターが、抽象的な質問を適切な視覚的変換にマッピングできないこと、および、推論深度が増加するにつれて編集の正確さが低下する世代側ギャップである。
そこで本研究では,下流理解モデルから切り離された質問条件付き推論対応画像エディタであるETCHR(Editing To Clarify and Harness Reasoning)を導入し,2つのギャップを目標とした2段階のレシピをトレーニングした。
エディタは分離されているため、ETCHRは異なるオープンソースおよびクローズドソースのMLLMをトレーニングフリーでプラグインする。
ETCHRは5つのタスクファミリ(微妙な認識、チャート理解、論理的推論、ジグソーの復元、および3D理解)で、平均パス@1を55.95から60.77 (+4.82)、Qwen3-VL-8B、65.08から70.55 (+5.47)、Gemini-3.1-Flash-Lite、76.55から81.16 (+4.61)、そして1TパラメータのMoEモデルKimi K2.5で上げる。
関連論文リスト
- Self-Corrected Image Generation with Explainable Latent Rewards [55.29175717238288]
我々は、説明可能なLatent RewarDを通じて生成をガイドする自己修正フレームワークであるxLARDを提案する。
xLARDは、モデル生成参照からの構造化されたフィードバックに基づいて遅延表現を洗練する軽量な修正器を導入している。
実験により、xLARDは、生成前の状態を維持しながら、意味的アライメントと視覚的忠実性を改善することが示された。
論文 参考訳(メタデータ) (2026-03-26T02:59:35Z) - AdaEdit: Adaptive Temporal and Channel Modulation for Flow-Based Image Editing [10.474377498273205]
フローマッチングモデルにおけるインバージョンベースの画像編集は、トレーニング不要でテキスト誘導された画像操作のための強力なパラダイムとして登場した。
既存の方法は、注入要求の本質的に不均一な性質を無視した固定注入戦略でこの問題に対処する。
AdaEditは、このジレンマを2つの補完的な革新を通じて解決する、トレーニング不要な適応編集フレームワークである。
論文 参考訳(メタデータ) (2026-03-23T06:22:53Z) - ThinkRL-Edit: Thinking in Reinforcement Learning for Reasoning-Centric Image Editing [33.888289858260706]
画像編集の質を向上させるために,強化学習(RL)について検討した。
RL は,(1) ノイズ除去に限定した推論探索,(2) バイアスド報酬融合,(3) 不安定な VLM ベースの命令報酬の3つの主要な課題に直面している。
画像合成から視覚的推論を分離する推論中心のRLフレームワークであるThinkRL-Editを提案する。
論文 参考訳(メタデータ) (2026-01-06T23:43:00Z) - ReasonEdit: Towards Reasoning-Enhanced Image Editing Models [60.902953259781675]
一般的なアーキテクチャ設計では、多モード大言語モデル(MLLM)エンコーダと拡散デコーダを結合する。
MLLMの推論能力のアンロックは、編集モデルのバウンダリを押し上げることができることを示す。
提案フレームワークは,思考・編集・リフレクションループにおける画像編集を可能にする。
論文 参考訳(メタデータ) (2025-11-27T17:02:48Z) - Visual Autoregressive Modeling for Instruction-Guided Image Editing [97.04821896251681]
画像編集を次世代の予測問題として再編成する視覚的自己回帰フレームワークを提案する。
VarEditは、正確な編集を実現するために、マルチスケールのターゲット機能を生成する。
1.2秒で512times512$編集を完了し、同じサイズのUltraEditよりも2.2$times$高速になった。
論文 参考訳(メタデータ) (2025-08-21T17:59:32Z) - A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。