論文の概要: Decompose, Look, and Reason: Reinforced Latent Reasoning for VLMs
- arxiv url: http://arxiv.org/abs/2604.07518v1
- Date: Wed, 08 Apr 2026 18:52:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.518085
- Title: Decompose, Look, and Reason: Reinforced Latent Reasoning for VLMs
- Title(参考訳): Decompose, Look, and Reason: Reinforced Latent Reasoning for VLMs
- Authors: Mengdan Zhu, Senhao Cheng, Liang Zhao,
- Abstract要約: 視覚言語モデルは、テキストCoTの視覚的情報損失により、複雑な視覚的推論に苦しむことが多い。
我々は,強化潜在推論フレームワークである"Decompose, Look, and Reason"(DLR)を提案する。
ビジョン中心のベンチマークの実験では、DLRは一貫して強いベースラインを上回っている。
- 参考スコア(独自算出の注目度): 6.111899371682025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models often struggle with complex visual reasoning due to the visual information loss in textual CoT. Existing methods either add the cost of tool calls or rely on localized patch-based embeddings that are insufficient to extract semantics in multi-step reasoning. We propose \emph{"Decompose, Look, and Reason" (DLR)}, a reinforced latent reasoning framework that dynamically decomposes queries into textual premises, extracts premise-conditioned continuous visual latents, and deduces answers through grounded rationales. We introduce a three-stage training pipeline and propose a novel Spherical Gaussian Latent Policy to enable effective exploration in the latent space. Extensive experiments on vision-centric benchmarks show that DLR consistently outperforms strong baselines, including text-only, interleaved multimodal CoT, and latent reasoning methods, while providing superior stepwise interpretability.
- Abstract(参考訳): 視覚言語モデルは、テキストCoTの視覚的情報損失により、複雑な視覚的推論に苦しむことが多い。
既存のメソッドは、ツールコールのコストを追加するか、マルチステップ推論においてセマンティクスを抽出するのに不十分な、ローカライズされたパッチベースの埋め込みに依存する。
このフレームワークは動的にクエリをテキストの前提に分解し、前提条件付き連続的な視覚的潜伏者を抽出し、根拠付き理性を通して回答を推論する。
本稿では,3段階の学習パイプラインを導入し,球状ガウスラテントポリシーを提案する。
ビジョン中心のベンチマークに関する大規模な実験により、DLRはテキストのみ、インターリーブされたマルチモーダルCoT、潜在推論方法など、強力なベースラインを一貫して上回り、ステップワイドな解釈性を提供することが示された。
関連論文リスト
- LaSER: Internalizing Explicit Reasoning into Latent Space for Dense Retrieval [74.72139580745511]
LaSERは、レトリバーの潜在空間に明示的な推論を内部化する、新しい自己蒸留フレームワークである。
提案手法は, 明示的なCoTパイプラインの推論深度と, 標準的な高密度検索器の推論効率をうまく組み合わせる。
論文 参考訳(メタデータ) (2026-03-02T04:11:18Z) - Monet: Reasoning in Latent Visual Space Beyond Images and Language [55.424507246294326]
視覚的推論を推し進める上で有効なパラダイムとして「画像で考える」が登場している。
既存の方法は、人間のような抽象的な視覚的思考に欠ける。
Monetは、マルチモーダルな大規模言語モデルを潜在視覚空間内で直接推論できるトレーニングフレームワークである。
論文 参考訳(メタデータ) (2025-11-26T13:46:39Z) - A Survey on Latent Reasoning [100.54120559169735]
大きな言語モデル(LLM)は印象的な推論機能を示している。
中間ステップを言語化するCoT推論は、モデルの表現帯域幅を制限する。
潜在的推論は、モデルの連続的な隠れ状態に完全にマルチステップの推論を実行することで、このボトルネックに対処する。
論文 参考訳(メタデータ) (2025-07-08T17:29:07Z) - Ground-R1: Incentivizing Grounded Visual Reasoning via Reinforcement Learning [96.01617809845396]
Ground-R1は、明示的なエビデンスや合理的アノテーションを必要とせずに、基礎的な視覚的推論を可能にする強化学習フレームワークである。
グラウンドR1は優れた性能を示し、不確実性認識、空間認識、反復的洗練などの創発的な認知行動を示す。
論文 参考訳(メタデータ) (2025-05-26T17:51:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。