論文の概要: InterSketch: An Interleaved Reasoning Model with Self-correcting Visual Sketch and Stepwise Reward
- arxiv url: http://arxiv.org/abs/2605.26520v1
- Date: Tue, 26 May 2026 04:07:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.611726
- Title: InterSketch: An Interleaved Reasoning Model with Self-correcting Visual Sketch and Stepwise Reward
- Title(参考訳): InterSketch: 自己修正型ビジュアルスケッチとステップワイドリワードを備えたインターリーブ型推論モデル
- Authors: Zhiwei Ning, Wenwen Tong, Xiangli Kong, Shengnan Ma, Ziyi Shang, Jingcheng Ni, Tao Hu, Yong Xien Chng, Jixuan Ying, Zehuan Wu, Hanming Deng, Jie Yang, Yuanjie Zheng, Wei Liu, Lewei Lu,
- Abstract要約: ヒューマンライクな思考は、典型的には、インターリーブド・ビジュアル・テクスト・チェーン・オブ・ソート(VT-CoT)による長い水平推論を伴う
自己補正とステップワイズ報酬機構によってVT-CoT能力を向上するインターリーブ推論モデルであるInterSketchを導入する。
ビジュアル推論ベンチマークの実験は、InterSketchの有効性を示し、Gemini-3-Proのようなプロプライエタリなモデルよりも優れている。
- 参考スコア(独自算出の注目度): 24.461407883853344
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While vision-language models (VLMs) have exhibited multi-turn visual reasoning capabilities, their reasoning trajectories remain relatively shallow and are dominated by a text-centric paradigm, limiting their applicability to complex visual challenges. In contrast, human-like thought typically involves long-horizon reasoning with an interleaved visual-textual chain-of-thought (VT-CoT). To bridge this gap, we introduce InterSketch, an interleaved reasoning model to enhance the VT-CoT capability via self-correcting and stepwise reward mechanisms. InterSketch dynamically generates intermediate visual sketches using external tools and interleaves them with textual reasoning, enabling effective perception and logical reasoning over long-horizon visual understanding tasks. Specifically, in the first cold-start stage, we propose a synthesized high-quality interleaved VT-CoT dataset and include a reflection mechanism to enable the model's capability in multi-turn interleaved reasoning and self-correction. In the subsequent reinforcement learning (RL) stage, we design a stepwise reward mechanism to mitigate the sparsity of reward signals inherent in end-only supervision over long-horizon reasoning. Extensive experiments on visual reasoning benchmarks demonstrate the effectiveness of InterSketch, even outperforming proprietary models such as Gemini-3-Pro.
- Abstract(参考訳): 視覚言語モデル(VLM)は多ターン視覚推論能力を示してきたが、その推論軌道は比較的浅いままであり、テキスト中心のパラダイムで支配されており、複雑な視覚的課題に適用可能である。
対照的に、人間のような思考は、典型的には長い水平推論を、視覚的テクストの連鎖(VT-CoT)とインターリーブする。
このギャップを埋めるために、自己補正とステップワイズ報酬機構を通じてVT-CoT能力を向上するインターリーブ推論モデルであるInterSketchを導入する。
InterSketchは、外部ツールを使用して中間的な視覚スケッチを動的に生成し、テキスト推論でインターリーブし、長期の視覚的理解タスクに対して効果的な知覚と論理的推論を可能にする。
具体的には、第1の冷間開始段階では、合成された高品質なインターリーブ付きVT-CoTデータセットを提案し、マルチターンインターリーブ付き推論および自己補正におけるモデルの能力を可能にするリフレクション機構を含む。
その後の強化学習(RL)段階において、長期的推論に対するエンドオンリーの監視に固有の報酬信号の空間性を軽減するために、段階的に報奨機構を設計する。
ビジュアル推論ベンチマークに関する大規模な実験は、InterSketchの有効性を示し、Gemini-3-Proのようなプロプライエタリなモデルよりも優れている。
関連論文リスト
- Cognitive Pivot Points and Visual Anchoring: Unveiling and Rectifying Hallucinations in Multimodal Reasoning Models [65.57985131861399]
幻覚は、しばしば高いエントロピー状態を示す認知的分岐点と強く相関している。
本稿では,視覚的に認識可能な推論機能の内部化を目的とした,軽量で総合的なトレーニングパラダイムであるV-STARを提案する。
論文 参考訳(メタデータ) (2026-04-11T13:59:05Z) - Perception-Aware Multimodal Spatial Reasoning from Monocular Images [57.42071289037214]
単眼画像からの空間的推論は 自律運転には不可欠です
現在のヴィジュアルランゲージモデル(VLM)は、微粒な幾何学的知覚に苦慮している。
本稿では,VLMを明示的な対象中心の接地能力を持つ知覚認識型マルチモーダル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-07T02:05:12Z) - Reasoning Within the Mind: Dynamic Multimodal Interleaving in Latent Space [46.05748768260013]
テスト時間動的マルチモーダル遅延推論フレームワークを提案する。
信頼誘導の潜在ポリシー勾配最適化を、詳細な推論のために潜在シンクトークンに採用する。
7つのマルチモーダル推論ベンチマークと様々なモデルアーキテクチャによる実験により、DMLRは推論性能と知覚性能を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-12-14T10:07:45Z) - Interleaved Latent Visual Reasoning with Selective Perceptual Modeling [42.93438443502933]
インターリーブ推論パラダイムは視覚フィードバックでマルチモーダル大言語モデル(MLLM)を強化するが、計算コストの禁止によって妨げられる。
有望な代替手段である、潜伏した視覚的推論は、このボトルネックを回避しますが、現在、重要なトレードオフを強制しています。
IVR(Interleaved Latent Visual Reasoning)は、動的状態の進化を正確に知覚モデリングと統合するフレームワークである。
論文 参考訳(メタデータ) (2025-12-05T12:09:39Z) - Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。
我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文 参考訳(メタデータ) (2025-06-11T17:41:50Z) - Visual Chain of Thought: Bridging Logical Gaps with Multimodal
Infillings [61.04460792203266]
本稿では, 逐次データ内の論理的ギャップを埋めるために, 視覚言語による接地を促進させる, チェーン・オブ・シントを利用する新しい手法であるVCoTを紹介する。
本手法は,下流タスクの論理的ギャップを低減するために,一貫した情報と新しい情報を加える合成マルチモーダル埋め込みを生成するために視覚誘導を用いる。
論文 参考訳(メタデータ) (2023-05-03T17:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。