論文の概要: What is Holding Back Latent Visual Reasoning?
- arxiv url: http://arxiv.org/abs/2605.18445v1
- Date: Mon, 18 May 2026 14:14:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.708755
- Title: What is Holding Back Latent Visual Reasoning?
- Title(参考訳): 遅れたビジュアル推論を控えているものは何か?
- Authors: André G. Viveiros, Nuno Gonçalves, André F. T. Martins, Matthias Lindemann,
- Abstract要約: 潜在トークンが非形式的なダミーのトークンに置き換えられると、モデル精度は影響を受けないことがわかった。
我々の実験は、潜伏した視覚的推論を抑える2つの重要な問題を明らかにした。
- 参考スコア(独自算出の注目度): 23.63938540988447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans can approach complex visual problems by mentally simulating intermediate visual steps, rather than reasoning through language alone. Inspired by this, several works on Vision-Language Models have recently explored chain-of-thought reasoning with continuous latent tokens as intermediate visual imagination steps. In this work, we investigate how recent models leverage such latent tokens. Surprisingly, we find that model accuracy is unaffected when latent tokens are replaced by uninformative ``dummy'' tokens. This indicates that latent tokens play a minimal causal role in the model's final prediction. To better understand this phenomenon, we analyze both the training signal provided by oracle latent representations and the quality of the latent tokens generated at inference time. Our experiments reveal two crucial issues holding back latent visual reasoning: First, in most existing datasets, oracle latent tokens provide limited additional information beyond the original image and do not substantially simplify the task, leading models to ignore them during training and effectively bypassing them at inference time. When fine-tuned on a diagnostic dataset, in which latent tokens provide sufficient support for the final prediction, we show that models can causally rely on them. Second, the latent tokens produced at inference time deviate from their corresponding oracle representations, collapsing to a narrow region and preventing benefits even when the model relies on them. Overall, our findings suggest that future progress in latent visual reasoning depends on two key pillars: high-quality datasets with informative intermediate steps and more precise latent token prediction.
- Abstract(参考訳): 人間は言語だけで推論するのではなく、中間的な視覚ステップを精神的にシミュレートすることで複雑な視覚問題にアプローチすることができる。
このことに触発されたVision-Language Modelsに関するいくつかの研究は、最近、中間的な視覚的想像のステップとして、継続的な潜在トークンによるチェーン・オブ・シークレット推論を探求した。
本研究では,近年のモデルがこのような潜在トークンをどのように活用しているかを考察する。
驚くべきことに、潜在トークンが非形式的な ``dummy'' トークンに置き換えられたとき、モデル精度は影響を受けない。
これは、潜在トークンがモデルの最終的な予測において最小の因果関係を担っていることを示している。
この現象をよりよく理解するために、オラクル潜伏表現によって提供される訓練信号と、推論時に生成された潜伏トークンの品質を解析する。
まず、既存のほとんどのデータセットにおいて、オラクル潜在トークンは、元の画像以外の限られた追加情報を提供し、タスクを実質的に単純化しないため、トレーニング中にモデルを無視し、推論時に効果的に無視する。
潜在トークンが最終予測の十分なサポートを提供する診断データセットを微調整すると、モデルがそれらを因果的に依存できることが示される。
第二に、推論時に生成される潜在トークンは、対応するオラクル表現から逸脱し、狭い領域に崩壊し、モデルがそれらに依存している場合でも利益を妨げます。
全体として,潜時的推論の今後の進歩は,情報的中間段階を持つ高品質なデータセットと,より正確な潜時的トークン予測という,2つの重要な柱に依存することが示唆された。
関連論文リスト
- Leveraging Latent Visual Reasoning in Silence [46.71750408786006]
遅延トークンをランダムノイズに置き換えたり、取り除いたりすると、空間推論ベンチマーク間で性能劣化がほとんどないことが示される。
本稿では、RL中に生成された潜在トークンが後続のテキストトークンと対話することを奨励するアテンションベースの報酬を提案する。
論文 参考訳(メタデータ) (2026-05-18T16:46:02Z) - Visual Latents Know More Than They Say: Unsilencing Latent Reasoning in MLLMs [54.16324124242172]
連続潜在空間推論は、マルチモーダルモデルに対するテキストチェーンのコンパクトな代替を提供する。
既存の視覚的推論手法では,これまで見過ごされてきた最適化病理を同定する。
パラメータ更新を伴わない推論時間潜時最適化は、視覚潜時における抑止的推論能力を効果的に解き放つことを示す。
論文 参考訳(メタデータ) (2026-05-04T15:36:12Z) - Thinking into the Future: Latent Lookahead Training for Transformers [34.73973224120233]
次トーケン予測で訓練された自己回帰言語モデルは、一度に1つの離散トークンをサンプリングすることでテキストを生成する。
我々は、モデルが生成前に"考える"ことができるトレーニング戦略である潜在ルックアヘッドを紹介します。
本研究では,潜在ルックアヘッドが,迷路解決やスドク,ProsQAといった計画課題において,自己回帰的,非自己回帰的ベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2026-03-03T17:15:42Z) - Imagination Helps Visual Reasoning, But Not Yet in Latent Space [65.80396132375571]
因果関係分析を用いた潜伏推論の有効性について検討した。
潜在トークンが限られた視覚情報を符号化し、高い類似性を示すことを示す。
CapImagineという簡単な代替案を提案し、テキストを明示的に想像するようにモデルに教える。
論文 参考訳(メタデータ) (2026-02-26T08:56:23Z) - Temporal Predictors of Outcome in Reasoning Language Models [0.0]
CoT(Chain-of-Thought)パラダイムは、推論のプロキシとしてステップバイステップの合理性の推論を使用する。
難しい問題に対して、予測精度の低下は、選択アーティファクトを浮き彫りにする。
全体として、我々の結果は、推論モデルでは、成功の自己評価はわずか数トークンで現れる傾向にあることを示唆している。
論文 参考訳(メタデータ) (2025-11-03T08:57:18Z) - Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation [85.82112629564942]
本稿では,離散トークンのモデリングをシンプルに保ちながら,連続トークンの強力な表現能力を維持するTokenBridgeを提案する。
本稿では,各特徴次元を独立に離散化し,軽量な自己回帰予測機構と組み合わせた次元ワイド量子化戦略を提案する。
提案手法は,標準的なカテゴリー予測を用いて,連続的手法と同等に再現および生成品質を実現する。
論文 参考訳(メタデータ) (2025-03-20T17:59:59Z) - Causal-Inspired Multitask Learning for Video-Based Human Pose Estimation [18.826857684901118]
本稿では2段階からなる因果時間モデリングフレームワークを提案する。
第1段階では、2つの自己超越補助タスクを導入することにより、因果時間モデリング能力を備えたモデルを提供する。
第2段階では、すべての特徴トークンが、ポーズ推定に等しく寄与するわけではないと論じる。
提案手法は3つの大規模ベンチマークデータセット上で最先端の手法より優れている。
論文 参考訳(メタデータ) (2025-01-24T09:45:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。