論文の概要: Leveraging Latent Visual Reasoning in Silence
- arxiv url: http://arxiv.org/abs/2605.18641v1
- Date: Mon, 18 May 2026 16:46:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:50.106006
- Title: Leveraging Latent Visual Reasoning in Silence
- Title(参考訳): サイレンスにおける潜在視覚推論の活用
- Authors: Dongyao Zhu, Zhen Wang, Xi Xiao, Han Jiang, Saeed Vahidian, Wei-Lun Chao, Tanya Berger-Wolf, Yu Su, Raju Vatsavai, Jianyang Gu,
- Abstract要約: 遅延トークンをランダムノイズに置き換えたり、取り除いたりすると、空間推論ベンチマーク間で性能劣化がほとんどないことが示される。
本稿では、RL中に生成された潜在トークンが後続のテキストトークンと対話することを奨励するアテンションベースの報酬を提案する。
- 参考スコア(独自算出の注目度): 46.71750408786006
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Latent visual reasoning involves visual evidence more directly in multimodal reasoning by inserting continuous latent tokens before textual generation. However, the necessity of these latent tokens at inference remains ambiguous. We show that replacing latent tokens with random noise or removing them completely causes little performance degradation across spatial reasoning benchmarks. Reinforcement learning further diminishes the latent generation behavior after post-training. These observations raise a central question: Is latent visual reasoning still meaningful? We argue that its value should be measured by how effectively latent tokens guide learning, rather than whether they persist as an inference-time format. Our analysis shows that latent reasoning is unevenly favorable across question types, yet hard task-level routing for applying latent generation is brittle. Motivated by these findings, we propose an attention-based reward that encourages generated latent tokens to interact with later text tokens during RL. This reward promotes latent utilization when the latent mode is activated while preserving the flexibility to use pure-text reasoning. Experiments show that our method improves performance across perception and visual reasoning benchmarks, even when latent tokens are rarely generated after post-training. Our results highlight that, without explicit expression at inference, latent visual reasoning can shape better visual grounding and more accurate textual reasoning in silence. Our code and trained models are publicly available at \href{https://github.com/ddydyd32/silent-lvr/tree/master}{GitHub} and \href{https://huggingface.co/collections/cornuHGF/silent-lvr}{Hugging Face}.
- Abstract(参考訳): 潜在的視覚推論は、テキスト生成の前に連続的な潜伏トークンを挿入することで、より直接的に多モーダル推論において視覚的エビデンスを含む。
しかし、これらの潜在トークンの推論における必要性はあいまいである。
遅延トークンをランダムノイズに置き換えたり、取り除いたりすると、空間推論ベンチマーク間で性能劣化がほとんどないことが示される。
強化学習は、ポストトレーニング後の潜在世代行動をさらに減少させる。
これらの観察は中心的な疑問を提起する:潜伏した視覚的推論はまだ意味があるのか?
その価値は、推論時フォーマットとして持続するかどうかよりも、潜在トークンが学習をいかに効果的に導くかによって測定されるべきである、と我々は主張する。
分析の結果,潜時推論は質問の種類によって不均一に有利であるが,潜時生成に適用するためのタスクレベルのルーティングは不安定であることがわかった。
これらの知見に触発されて、RL中に生成された潜在トークンが後続のテキストトークンと対話することを奨励するアテンションベースの報酬を提案する。
この報酬は、純粋テキスト推論を使用する柔軟性を維持しながら、潜時モードがアクティブになったときに潜時利用を促進する。
実験の結果,遅延トークンがポストトレーニング後に生成されることがほとんどない場合でも,認識と視覚的推論のベンチマークによる性能向上が確認できた。
以上の結果から,暗黙下での視覚的根拠形成やテキスト的推論の精度向上に寄与することが示唆された。
私たちのコードとトレーニングされたモデルは、 \href{https://github.com/ddydyd32/silent-lvr/tree/master}{GitHub} と \href{https://huggingface.co/collections/cornuHGF/silent-lvr}{Hugging Face} で公開されています。
関連論文リスト
- What is Holding Back Latent Visual Reasoning? [23.63938540988447]
潜在トークンが非形式的なダミーのトークンに置き換えられると、モデル精度は影響を受けないことがわかった。
我々の実験は、潜伏した視覚的推論を抑える2つの重要な問題を明らかにした。
論文 参考訳(メタデータ) (2026-05-18T14:14:49Z) - Self-Consistent Latent Reasoning: Long Latent Sequence Reasoning for Vision-Language Model [56.21523258053447]
SCOLAR(Self-Consistent LAtent Reasoning)は、1枚のショットで補助的な視覚トークンを生成する軽量なデコンバータを導入している。
SCOLARは許容遅延CoT長を30ドル以上延長し、実世界の推論ベンチマークでオープンソースモデルの間で最先端を実現している。
論文 参考訳(メタデータ) (2026-05-12T14:13:08Z) - Visual Latents Know More Than They Say: Unsilencing Latent Reasoning in MLLMs [54.16324124242172]
連続潜在空間推論は、マルチモーダルモデルに対するテキストチェーンのコンパクトな代替を提供する。
既存の視覚的推論手法では,これまで見過ごされてきた最適化病理を同定する。
パラメータ更新を伴わない推論時間潜時最適化は、視覚潜時における抑止的推論能力を効果的に解き放つことを示す。
論文 参考訳(メタデータ) (2026-05-04T15:36:12Z) - Imagination Helps Visual Reasoning, But Not Yet in Latent Space [65.80396132375571]
因果関係分析を用いた潜伏推論の有効性について検討した。
潜在トークンが限られた視覚情報を符号化し、高い類似性を示すことを示す。
CapImagineという簡単な代替案を提案し、テキストを明示的に想像するようにモデルに教える。
論文 参考訳(メタデータ) (2026-02-26T08:56:23Z) - Latent Reasoning in LLMs as a Vocabulary-Space Superposition [80.01651003144282]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット・プロンプトによる強力な推論能力を示すが、明示的な推論は計算上のオーバーヘッドを大幅に引き起こす。
遅延推論に関する最近の研究は、明示的な監督なしに遅延空間を推論することでコストを削減するが、性能は著しく低下する。
この問題に対処するため、LLM語彙の列空間に潜伏空間を制限し、潜伏推論を語彙確率の重ね合わせとして扱う。
後続の推論が終わると、それは最終的な答えを得るために明確な推論の固有状態に崩壊する。
Latent-SFTはGSM8kに新しい状態を設定し、明示的に一致する
論文 参考訳(メタデータ) (2025-10-17T10:51:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。