論文の概要: Visual Latents Know More Than They Say: Unsilencing Latent Reasoning in MLLMs
- arxiv url: http://arxiv.org/abs/2605.02735v1
- Date: Mon, 04 May 2026 15:36:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.378784
- Title: Visual Latents Know More Than They Say: Unsilencing Latent Reasoning in MLLMs
- Title(参考訳): 視覚的潜伏者が言う以上に知っている:MLLMにおける潜伏推論の無秩序化
- Authors: Xin Zhang, Qiqi Tao, Jiawei Du, Moyun Liu, Joey Tianyi Zhou,
- Abstract要約: 連続潜在空間推論は、マルチモーダルモデルに対するテキストチェーンのコンパクトな代替を提供する。
既存の視覚的推論手法では,これまで見過ごされてきた最適化病理を同定する。
パラメータ更新を伴わない推論時間潜時最適化は、視覚潜時における抑止的推論能力を効果的に解き放つことを示す。
- 参考スコア(独自算出の注目度): 54.16324124242172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continuous latent-space reasoning offers a compact alternative to textual chain-of-thought for multimodal models, enabling high-dimensional visual evidence to be integrated without explicit reasoning tokens. However, we identify a previously overlooked optimization pathology in existing latent visual reasoning methods: although visual latents become semantically enriched during training, their contribution to final answer prediction is systematically suppressed. Within the shared parameter space, the autoregressive objective favors shortcut reliance on direct visual input, driving latent tokens toward transition-like states rather than informative reasoning content. We term this phenomenon Silenced Visual Latents. To address it, we disentangle the two conflicting objectives by directly optimizing the latent reasoning at inference time, keeping backbone parameters frozen. In Stage I, visual latents are warmed up via query-guided contrastive latent--visual alignment, improving semantic quality while preventing latent collapse. In Stage II, the latent reasoning is further optimized via a confidence-progression reward, which incentivizes predicted token distributions along the latent span to become progressively more concentrated, routing predictions through the latent reasoning rather than bypassing it. Experiments across eight benchmarks and four model backbones show that inference-time latent optimization, without any parameter updates, effectively unleashes the suppressed reasoning capacity of visual latents.
- Abstract(参考訳): 連続潜在空間推論は、マルチモーダルモデルに対するテキストチェーンのコンパクトな代替を提供し、明示的な推論トークンを使わずに高次元の視覚的エビデンスを統合することができる。
しかし、既存の視覚的推論手法では、これまで見過ごされていた最適化病理を同定し、トレーニング中に視覚的潜在者が意味的に豊かになるが、最終的な回答予測への貢献は体系的に抑制される。
共有パラメータ空間内では、自己回帰的目的は直接的な視覚的入力に依存するショートカットを好んでおり、情報的推論コンテンツではなく、遅延トークンを遷移的状態へと誘導する。
我々はこの現象をSilenced Visual Latentsと呼ぶ。
これを解決するために、推論時に潜伏推論を直接最適化し、バックボーンパラメータを凍結し続けることによって、対立する2つの目的を解消する。
ステージIでは、視覚的潜伏語はクエリ誘導によるコントラスト的潜伏語アライメントによってウォームアップされる。
ステージIIでは、潜伏推論は、潜伏確率の報酬によってさらに最適化され、潜伏幅に沿って予測されたトークン分布をインセンティブ化し、徐々に集中化され、潜伏推理をバイパスするのではなく、潜伏推理を通して予測をルーティングする。
8つのベンチマークと4つのモデルバックボーンによる実験では、パラメータの更新なしに、推論時遅延最適化が視覚潜伏者の抑制された推論能力を効果的に解き放つことが示されている。
関連論文リスト
- Thinking in Uncertainty: Mitigating Hallucinations in MLRMs with Latent Entropy-Aware Decoding [38.5840117402958]
トークン確率分布から適切な文脈推論情報を直接抽出できることを論じる。
本稿では,効率的なプラグアンドプレイデコーディング戦略であるLatent Entropy-Aware Decodingを提案する。
このモデルは高エントロピー状態下での確率重み付き連続埋め込みを採用し、エントロピーが減少するにつれて離散トークン埋め込みに遷移する。
論文 参考訳(メタデータ) (2026-03-09T12:47:54Z) - Imagination Helps Visual Reasoning, But Not Yet in Latent Space [65.80396132375571]
因果関係分析を用いた潜伏推論の有効性について検討した。
潜在トークンが限られた視覚情報を符号化し、高い類似性を示すことを示す。
CapImagineという簡単な代替案を提案し、テキストを明示的に想像するようにモデルに教える。
論文 参考訳(メタデータ) (2026-02-26T08:56:23Z) - How Do Latent Reasoning Methods Perform Under Weak and Strong Supervision? [45.11635323173876]
我々は、プロセスにおける潜伏表現の役割と振舞いをよりよく理解するために、潜伏推論手法の包括的な分析を行う。
潜在表現は複数の可能性をエンコードできるが、推論プロセスは構造化検索を忠実に実装していない。
より強い監督はショートカット行動を緩和するが、多種多様な仮説を維持するために潜伏表現の能力を制限する。
論文 参考訳(メタデータ) (2026-02-25T22:00:59Z) - CrystaL: Spontaneous Emergence of Visual Latents in MLLMs [55.34169914483764]
CrystaL(Crystallized Latent Reasoning)は,静止画像と劣化画像を処理するための2つの経路を持つ単一ステージフレームワークである。
CrystaLは2つの経路にまたがる注意パターンと予測分布を明確に調整することで、潜在表現をタスク関連視覚意味論に結晶化する。
知覚集約ベンチマークの実験では、CrystaLは最先端のベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-24T15:01:30Z) - Forest Before Trees: Latent Superposition for Efficient Visual Reasoning [61.29300723302152]
レーザーは動的ウィンドウアライメント学習(DWAL)を通して視覚的推論を再構成する新しいパラダイムである
レーザーは遅延推論法で最先端のパフォーマンスを達成し、強いベースラインのモネを平均5.03%上回る。
論文 参考訳(メタデータ) (2026-01-11T08:30:49Z) - A Survey on Latent Reasoning [100.54120559169735]
大きな言語モデル(LLM)は印象的な推論機能を示している。
中間ステップを言語化するCoT推論は、モデルの表現帯域幅を制限する。
潜在的推論は、モデルの連続的な隠れ状態に完全にマルチステップの推論を実行することで、このボトルネックに対処する。
論文 参考訳(メタデータ) (2025-07-08T17:29:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。