論文の概要: Visual Enhanced Depth Scaling for Multimodal Latent Reasoning
- arxiv url: http://arxiv.org/abs/2604.10500v2
- Date: Thu, 16 Apr 2026 01:21:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 16:09:14.144974
- Title: Visual Enhanced Depth Scaling for Multimodal Latent Reasoning
- Title(参考訳): マルチモーダル遅延推論のための視覚的深度スケーリング
- Authors: Yudong Han, Yong Wang, Zaiquan Yang, Zhen Qu, Liyuan Pan, Xiangxiang Chu,
- Abstract要約: マルチモーダル潜在推論は、明示的なChain-of-Thoughtデコーディングを暗黙的な特徴伝達に置き換える、有望なパラダイムとして登場した。
視覚的認識を協調的に強化し,より深い文脈推論のために複雑な潜伏を洗練するための視覚再生モジュールとルーティング深度スケーリングを提案する。
我々のフレームワークは、さまざまなベンチマークで最先端のパフォーマンスを実現しつつ、明示的なCoTベースラインよりもかなりの推論スピードアップを実現しています。
- 参考スコア(独自算出の注目度): 32.211888127924446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal latent reasoning has emerged as a promising paradigm that replaces explicit Chain-of-Thought (CoT) decoding with implicit feature propagation, simultaneously enhancing representation informativeness and reducing inference latency. By analyzing token-level gradient dynamics during latent training, we reveal two critical observations: (1) visual tokens exhibit significantly higher and more volatile gradient norms than their textual counterparts due to inherent language bias, resulting in systematic visual under-optimization; and (2) semantically simple tokens converge rapidly, whereas complex tokens exhibit persistent gradient instability constrained by fixed architectural depths. To address these limitations, we propose a visual replay module and routing depth scaling to collaboratively enhance visual perception and refine complicated latents for deeper contextual reasoning. The former module leverages causal self-attention to estimate token saliency, reinforcing fine-grained grounding through spatially-coherent constraints. Complementarily, the latter mechanism adaptively allocates additional reasoning steps to complex tokens, enabling deeper contextual refinement. Guided by a curriculum strategy that progressively internalizes explicit CoT into compact latent representations, our framework achieves state-of-the-art performance across diverse benchmarks while delivering substantial inference speedups over explicit CoT baselines.
- Abstract(参考訳): マルチモーダル遅延推論は、明示的なChain-of-Thought(CoT)デコーディングを暗黙的な特徴伝搬に置き換え、表現の伝達性を同時に拡張し、推論レイテンシを低減する、有望なパラダイムとして登場した。
1)視覚的トークンは固有の言語バイアスによるテキスト的基準よりも著しく高い揮発性勾配ノルムを示し,体系的な視覚的過度最適化をもたらすこと,(2)意味論的に単純なトークンは急速に収束する一方で,複雑なトークンは固定されたアーキテクチャの深さによって制約された永続的な勾配不安定を示すこと,の2つの重要な観察結果が得られた。
これらの制約に対処するために、視覚的認識を協調的に強化し、より深い文脈的推論のために複雑な潜伏を洗練するための視覚的再生モジュールとルーティング深度スケーリングを提案する。
前者のモジュールは因果自己注意を利用してトークンの正当性を推定し、空間的に一貫性のある制約によってきめ細かいグラウンドを補強する。
補足的に、後者のメカニズムは複雑なトークンに追加の推論ステップを適応的に割り当て、より深い文脈改善を可能にする。
明示的なCoTをコンパクトな潜在表現に段階的に内包するカリキュラム戦略により、我々のフレームワークは様々なベンチマークで最先端のパフォーマンスを実現し、明示的なCoTベースラインよりも相当な推論スピードアップを実現している。
関連論文リスト
- Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought [73.39221516441624]
マルチモーダル・チェーン・オブ・ソート(CoT)推論は、推論軌道を構築するために大きな視覚言語モデルを必要とする。
既存のReinforcement Learning with Verifiable Rewards (RLVR) 法は、様々な視覚的接地度を区別することなく、CoTを均一に扱う。
本稿では,隠れ状態の類似性に先立って認識を導き,トークンのエントロピーと統合する知覚探索ポリシー最適化(PEPO)を提案する。
論文 参考訳(メタデータ) (2026-03-24T06:38:00Z) - CrystaL: Spontaneous Emergence of Visual Latents in MLLMs [55.34169914483764]
CrystaL(Crystallized Latent Reasoning)は,静止画像と劣化画像を処理するための2つの経路を持つ単一ステージフレームワークである。
CrystaLは2つの経路にまたがる注意パターンと予測分布を明確に調整することで、潜在表現をタスク関連視覚意味論に結晶化する。
知覚集約ベンチマークの実験では、CrystaLは最先端のベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-24T15:01:30Z) - Reasoning Within the Mind: Dynamic Multimodal Interleaving in Latent Space [46.05748768260013]
テスト時間動的マルチモーダル遅延推論フレームワークを提案する。
信頼誘導の潜在ポリシー勾配最適化を、詳細な推論のために潜在シンクトークンに採用する。
7つのマルチモーダル推論ベンチマークと様々なモデルアーキテクチャによる実験により、DMLRは推論性能と知覚性能を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-12-14T10:07:45Z) - Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。