論文の概要: Beyond Visual Memory: Mechanistic Diagnostics of Latent Visual Reasoning
- arxiv url: http://arxiv.org/abs/2606.01287v1
- Date: Sun, 31 May 2026 15:14:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.499218
- Title: Beyond Visual Memory: Mechanistic Diagnostics of Latent Visual Reasoning
- Title(参考訳): ビジュアルメモリを超えて:潜伏したビジュアル推論のメカニスティック診断
- Authors: Garvin Guo, Yu Chen, Xiang Wang, Shuai Li, Xinpei Zhao, Huaxing Liu, Shuai Dong,
- Abstract要約: 潜在トークンを、潜在スロット、境界マーカー、フォーマットの3つのテスト可能なコンポーネントに分解する。
6つのメソッドステージ設定と4つの知覚量の多いベンチマークで、潜在スロットはビジュアルメモリアカウントの予測毎にフェールする。
利得は境界マーカー、フォーマット、そしてこの注意パターンであり、潜在スロットからではない。
- 参考スコア(独自算出の注目度): 13.957444950754605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent latent visual reasoning methods achieve substantial gains by inserting continuous latent tokens into multimodal language models. These gains are commonly attributed to the tokens encoding visual evidence; recent analyses, however, reveal a paradox: the tokens are loosely tied to the image and contribute little to the answer. Critically, these analyses treat latent tokens as a single unit, obscuring the true source of the gains. We therefore decompose latent tokens into three testable components: latent slots, boundary markers, and format, and develop a state-of-the-art method as a probe under favorable conditions. Across six method-stage settings and four perception-heavy benchmarks, latent slots fail every prediction of the visual-memory account. Strikingly, retaining only the boundary markers preserves 78 to 100% of the gain in several settings, while the model attends to the image more narrowly at latent positions than at answer positions. The gain therefore comes from boundary markers, format, and this attention pattern, not from latent slots. How each method engages this mechanism depends on its training supervision: at matched accuracy, mechanisms can still differ markedly. Latent visual reasoning thus needs evaluation not only by accuracy but by what the model actually relies on.
- Abstract(参考訳): 近年の潜時視覚推論法は, 連続潜時トークンを多モーダル言語モデルに挿入することにより, かなりの利得が得られる。
しかし、最近の分析ではパラドックスが示されており、トークンは画像にゆるく結びついており、答えにはほとんど寄与していない。
これらの分析は、潜在トークンを単一の単位として扱い、利得の真の源を隠蔽する。
そこで我々は,潜伏トークンを3つのテスト可能なコンポーネントに分解する:潜伏スロット,境界マーカー,フォーマット。
6つのメソッドステージ設定と4つの知覚量の多いベンチマークで、潜在スロットはビジュアルメモリアカウントの予測毎にフェールする。
興味深いことに、境界マーカーのみを保持することはいくつかの設定で78から100%の利得を保ち、一方、モデルは応答位置よりも遅延位置においてより狭く画像に付随する。
したがって、この利得は境界マーカー、フォーマット、およびこの注意パターンによるもので、潜在スロットからではない。
それぞれの手法がこのメカニズムにどのように関与するかは、トレーニングの監督に依存する。
したがって、潜在的な視覚的推論は、精度だけでなく、モデルが実際に依存するものによって評価する必要がある。
関連論文リスト
- VisionPulse: Dynamic Visual Sparsity for Efficient Multimodal Reasoning [15.03674139835036]
推論中に段階的に視覚的トークンを抽出するフレームワークであるVisionPulseを提案する。
VisionPulseは、推論中に視覚的間隔を強制することにより、関連する視覚的証拠を保持しながら冗長な視覚的コンテキストをフィルタリングし、推論トレースを自然に短縮する。
論文 参考訳(メタデータ) (2026-05-29T15:51:12Z) - Leveraging Latent Visual Reasoning in Silence [46.71750408786006]
遅延トークンをランダムノイズに置き換えたり、取り除いたりすると、空間推論ベンチマーク間で性能劣化がほとんどないことが示される。
本稿では、RL中に生成された潜在トークンが後続のテキストトークンと対話することを奨励するアテンションベースの報酬を提案する。
論文 参考訳(メタデータ) (2026-05-18T16:46:02Z) - What's Holding Back Latent Visual Reasoning? [23.63938540988447]
近年のモデルでは、連続した潜伏トークンを中間的な視覚的想像力のステップとして活用している。
驚くべきことに、潜在トークンが非形式的ダミートークンに置き換えられたとき、モデル精度は影響を受けない。
我々の実験は、潜伏した視覚的推論を抑える2つの重要な問題を明らかにした。
論文 参考訳(メタデータ) (2026-05-18T14:14:49Z) - Self-Consistent Latent Reasoning: Long Latent Sequence Reasoning for Vision-Language Model [56.21523258053447]
SCOLAR(Self-Consistent LAtent Reasoning)は、1枚のショットで補助的な視覚トークンを生成する軽量なデコンバータを導入している。
SCOLARは許容遅延CoT長を30ドル以上延長し、実世界の推論ベンチマークでオープンソースモデルの間で最先端を実現している。
論文 参考訳(メタデータ) (2026-05-12T14:13:08Z) - Visual Latents Know More Than They Say: Unsilencing Latent Reasoning in MLLMs [54.16324124242172]
連続潜在空間推論は、マルチモーダルモデルに対するテキストチェーンのコンパクトな代替を提供する。
既存の視覚的推論手法では,これまで見過ごされてきた最適化病理を同定する。
パラメータ更新を伴わない推論時間潜時最適化は、視覚潜時における抑止的推論能力を効果的に解き放つことを示す。
論文 参考訳(メタデータ) (2026-05-04T15:36:12Z) - Imagination Helps Visual Reasoning, But Not Yet in Latent Space [65.80396132375571]
因果関係分析を用いた潜伏推論の有効性について検討した。
潜在トークンが限られた視覚情報を符号化し、高い類似性を示すことを示す。
CapImagineという簡単な代替案を提案し、テキストを明示的に想像するようにモデルに教える。
論文 参考訳(メタデータ) (2026-02-26T08:56:23Z) - Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation [85.82112629564942]
本稿では,離散トークンのモデリングをシンプルに保ちながら,連続トークンの強力な表現能力を維持するTokenBridgeを提案する。
本稿では,各特徴次元を独立に離散化し,軽量な自己回帰予測機構と組み合わせた次元ワイド量子化戦略を提案する。
提案手法は,標準的なカテゴリー予測を用いて,連続的手法と同等に再現および生成品質を実現する。
論文 参考訳(メタデータ) (2025-03-20T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。