論文の概要: Multimodal Latent Reasoning via Hierarchical Visual Cues Injection
- arxiv url: http://arxiv.org/abs/2602.05359v1
- Date: Thu, 05 Feb 2026 06:31:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.788429
- Title: Multimodal Latent Reasoning via Hierarchical Visual Cues Injection
- Title(参考訳): 階層型ビジュアルキュース注入によるマルチモーダル潜時推論
- Authors: Yiming Zhang, Qiangyu Yan, Borui Jiang, Kai Han,
- Abstract要約: この研究は、頑健な推論は潜在空間内で進化し、シームレスにマルチモーダル信号を統合することを示唆している。
表面的な文章の合理性に依存することなく、意図的な「スロー思考」を具現化する新しい枠組みを提案する。
視覚知識を取り入れたテストタイムスケーリングは有効であり,階層的な情報の統合は複雑な場面に対するモデルの理解を著しく向上させることを示す。
- 参考スコア(独自算出の注目度): 16.779425236020433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advancement of multimodal large language models (MLLMs) has enabled impressive perception capabilities. However, their reasoning process often remains a "fast thinking" paradigm, reliant on end-to-end generation or explicit, language-centric chains of thought (CoT), which can be inefficient, verbose, and prone to hallucination. This work posits that robust reasoning should evolve within a latent space, integrating multimodal signals seamlessly. We propose multimodal latent reasoning via HIerarchical Visual cuEs injection (\emph{HIVE}), a novel framework that instills deliberate, "slow thinking" without depending on superficial textual rationales. Our method recursively extends transformer blocks, creating an internal loop for iterative reasoning refinement. Crucially, it injectively grounds this process with hierarchical visual cues from global scene context to fine-grained regional details directly into the model's latent representations. This enables the model to perform grounded, multi-step inference entirely in the aligned latent space. Extensive evaluations demonstrate that test-time scaling is effective when incorporating vision knowledge, and that integrating hierarchical information significantly enhances the model's understanding of complex scenes.
- Abstract(参考訳): MLLM(Multimodal large language model)の進歩により、印象的な知覚能力を実現した。
しかしながら、彼らの推論プロセスは、しばしば「高速な思考」パラダイムのままであり、非効率で冗長で幻覚の傾向がある、エンドツーエンドの生成や明示的な言語中心の思考の連鎖(CoT)に依存している。
この研究は、頑健な推論は潜在空間内で進化し、シームレスにマルチモーダル信号を統合することを示唆している。
本稿では,表層テキストの有理性に依存することなく,意図的な「スロー思考」を具現化する新しいフレームワークである階層型ビジュアルcuEsインジェクション(\emph{HIVE})によるマルチモーダル潜時推論を提案する。
提案手法は変圧器ブロックを再帰的に拡張し,反復的推論改善のための内部ループを生成する。
重要なことに、このプロセスには、グローバルシーンのコンテキストから、詳細な地域の詳細まで、階層的な視覚的手がかりを、モデルの潜在表現に直接注入する。
これにより、モデルは、アライメントされたラテント空間で完全に接地されたマルチステップ推論を実行することができる。
広範囲な評価は、視覚知識を取り入れたテストタイムスケーリングが効果的であることを示し、階層的な情報を統合することで、複雑なシーンに対するモデルの理解が著しく向上することを示している。
関連論文リスト
- Reasoning Within the Mind: Dynamic Multimodal Interleaving in Latent Space [46.05748768260013]
テスト時間動的マルチモーダル遅延推論フレームワークを提案する。
信頼誘導の潜在ポリシー勾配最適化を、詳細な推論のために潜在シンクトークンに採用する。
7つのマルチモーダル推論ベンチマークと様々なモデルアーキテクチャによる実験により、DMLRは推論性能と知覚性能を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-12-14T10:07:45Z) - A Survey on Latent Reasoning [100.54120559169735]
大きな言語モデル(LLM)は印象的な推論機能を示している。
中間ステップを言語化するCoT推論は、モデルの表現帯域幅を制限する。
潜在的推論は、モデルの連続的な隠れ状態に完全にマルチステップの推論を実行することで、このボトルネックに対処する。
論文 参考訳(メタデータ) (2025-07-08T17:29:07Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Visual Chain of Thought: Bridging Logical Gaps with Multimodal
Infillings [61.04460792203266]
本稿では, 逐次データ内の論理的ギャップを埋めるために, 視覚言語による接地を促進させる, チェーン・オブ・シントを利用する新しい手法であるVCoTを紹介する。
本手法は,下流タスクの論理的ギャップを低減するために,一貫した情報と新しい情報を加える合成マルチモーダル埋め込みを生成するために視覚誘導を用いる。
論文 参考訳(メタデータ) (2023-05-03T17:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。