論文の概要: Retrieve, Integrate, and Synthesize: Spatial-Semantic Grounded Latent Visual Reasoning
- arxiv url: http://arxiv.org/abs/2605.07106v1
- Date: Fri, 08 May 2026 01:33:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.721446
- Title: Retrieve, Integrate, and Synthesize: Spatial-Semantic Grounded Latent Visual Reasoning
- Title(参考訳): Retrieve, Integrate, and Synthesize: Space-Semantic Grounded Latent Visual Reasoning
- Authors: Jin Cui, Xinyue Long, Xunyong Zhang, Yadong Zhang, Chuanchang Su, Jingye Gan, Boran Zhao, Pengju Ren,
- Abstract要約: 本稿では,事前学習型MLLM計算の互換性拡張として遅延推論を開発する空間意味的基盤となるRIS(Retrieve,Integrate,Synthesize)を提案する。
RISは潜伏トークンを空間的および意味的な証拠の両方に固定し、進行的な注意ボトルネックを通じて因果的役割を強制し、翻訳された潜伏状態から語彙に整合した復号に戻すために短い言語遷移トークンを導入する。
- 参考スコア(独自算出の注目度): 11.05919811646786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have made remarkable progress on vision-language reasoning, yet most methods still compress visual evidence into discrete textual thoughts, creating an information bottleneck for fine-grained perception. Recent latent visual reasoning methods attempt to reason in continuous hidden states, but we find that they suffer from insufficient manifold compatibility: latent trajectories drift away from pretrained reasoning circuits, collapse into instance-agnostic patterns, and are often bypassed during answer generation. To address these issues, we propose RIS (Retrieve, Integrate, and Synthesize), a spatial-semantic grounded framework that develops latent reasoning as a compatible extension of pretrained MLLM computation. We first construct a step-wise grounded reasoning dataset with bounding boxes and region-specific semantic descriptions. Built on this supervision, RIS anchors latent tokens to both spatial and semantic evidence, enforces their causal role through a progressive attention bottleneck, and introduces short language transition tokens to bridge synthesized latent states back to vocabulary-aligned decoding. Experiments on V*, HRBench4K, HRBench8K, MMVP, and BLINK show consistent improvements over closed/open-source and latent reasoning baselines. Further analyses demonstrate that RIS learns diverse, interpretable, and progressively integrated latent trajectories, offering a practical path toward faithful internal visual reasoning in MLLMs.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、視覚言語推論において顕著な進歩を遂げているが、ほとんどの手法は、視覚的証拠を離散的なテキスト思考に圧縮し、きめ細かい知覚のための情報のボトルネックを生み出している。
近年の潜在的視覚的推論法は、連続的な隠蔽状態における推論を試みているが、それらが不十分な多様体の整合性に悩まされていることが判明した。
これらの問題に対処するために,事前学習型MLLM計算の互換性拡張として潜時推論を開発する空間意味的基盤となるRIS(Retrieve,Integrate,Synthesize)を提案する。
まず,境界ボックスと領域固有の意味記述を用いたステップワイドな推論データセットを構築した。
この監視に基づいて構築されたRISは、潜伏トークンを空間的および意味的な証拠の両方に固定し、進行的な注意ボトルネックを通じて因果的役割を強制する。
V*、HRBench4K、HRBench8K、MMVP、BLINKの実験では、クローズド/オープンソース、潜伏する推論ベースラインよりも一貫した改善が見られた。
さらなる分析により、RISは多様で解釈可能で、段階的に統合された潜在軌道を学習し、MLLMにおける忠実な内部視覚的推論への実践的な道を提供することが示された。
関連論文リスト
- Visual Latents Know More Than They Say: Unsilencing Latent Reasoning in MLLMs [54.16324124242172]
連続潜在空間推論は、マルチモーダルモデルに対するテキストチェーンのコンパクトな代替を提供する。
既存の視覚的推論手法では,これまで見過ごされてきた最適化病理を同定する。
パラメータ更新を伴わない推論時間潜時最適化は、視覚潜時における抑止的推論能力を効果的に解き放つことを示す。
論文 参考訳(メタデータ) (2026-05-04T15:36:12Z) - Decompose, Look, and Reason: Reinforced Latent Reasoning for VLMs [6.111899371682025]
視覚言語モデルは、テキストCoTの視覚的情報損失により、複雑な視覚的推論に苦しむことが多い。
我々は,強化潜在推論フレームワークである"Decompose, Look, and Reason"(DLR)を提案する。
ビジョン中心のベンチマークの実験では、DLRは一貫して強いベースラインを上回っている。
論文 参考訳(メタデータ) (2026-04-08T18:52:27Z) - LaSER: Internalizing Explicit Reasoning into Latent Space for Dense Retrieval [74.72139580745511]
LaSERは、レトリバーの潜在空間に明示的な推論を内部化する、新しい自己蒸留フレームワークである。
提案手法は, 明示的なCoTパイプラインの推論深度と, 標準的な高密度検索器の推論効率をうまく組み合わせる。
論文 参考訳(メタデータ) (2026-03-02T04:11:18Z) - Multimodal Latent Reasoning via Hierarchical Visual Cues Injection [16.779425236020433]
この研究は、頑健な推論は潜在空間内で進化し、シームレスにマルチモーダル信号を統合することを示唆している。
表面的な文章の合理性に依存することなく、意図的な「スロー思考」を具現化する新しい枠組みを提案する。
視覚知識を取り入れたテストタイムスケーリングは有効であり,階層的な情報の統合は複雑な場面に対するモデルの理解を著しく向上させることを示す。
論文 参考訳(メタデータ) (2026-02-05T06:31:12Z) - Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - A Survey on Latent Reasoning [100.54120559169735]
大きな言語モデル(LLM)は印象的な推論機能を示している。
中間ステップを言語化するCoT推論は、モデルの表現帯域幅を制限する。
潜在的推論は、モデルの連続的な隠れ状態に完全にマルチステップの推論を実行することで、このボトルネックに対処する。
論文 参考訳(メタデータ) (2025-07-08T17:29:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。