論文の概要: Forest Before Trees: Latent Superposition for Efficient Visual Reasoning
- arxiv url: http://arxiv.org/abs/2601.06803v1
- Date: Sun, 11 Jan 2026 08:30:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.003214
- Title: Forest Before Trees: Latent Superposition for Efficient Visual Reasoning
- Title(参考訳): 木の前の森:効率的な視覚的推論のための潜在的重ね合わせ
- Authors: Yubo Wang, Juntian Zhang, Yichen Wu, Yankai Lin, Nils Lukas, Yuhan Liu,
- Abstract要約: レーザーは動的ウィンドウアライメント学習(DWAL)を通して視覚的推論を再構成する新しいパラダイムである
レーザーは遅延推論法で最先端のパフォーマンスを達成し、強いベースラインのモネを平均5.03%上回る。
- 参考スコア(独自算出の注目度): 61.29300723302152
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While Chain-of-Thought empowers Large Vision-Language Models with multi-step reasoning, explicit textual rationales suffer from an information bandwidth bottleneck, where continuous visual details are discarded during discrete tokenization. Recent latent reasoning methods attempt to address this challenge, but often fall prey to premature semantic collapse due to rigid autoregressive objectives. In this paper, we propose Laser, a novel paradigm that reformulates visual deduction via Dynamic Windowed Alignment Learning (DWAL). Instead of forcing a point-wise prediction, Laser aligns the latent state with a dynamic validity window of future semantics. This mechanism enforces a "Forest-before-Trees" cognitive hierarchy, enabling the model to maintain a probabilistic superposition of global features before narrowing down to local details. Crucially, Laser maintains interpretability via decodable trajectories while stabilizing unconstrained learning via Self-Refined Superposition. Extensive experiments on 6 benchmarks demonstrate that Laser achieves state-of-the-art performance among latent reasoning methods, surpassing the strong baseline Monet by 5.03% on average. Notably, it achieves these gains with extreme efficiency, reducing inference tokens by more than 97%, while demonstrating robust generalization to out-of-distribution domains.
- Abstract(参考訳): Chain-of-Thoughtは多段階推論による大規模視覚言語モデルに権限を与えるが、明示的なテキスト論理は情報帯域幅のボトルネックに悩まされ、離散的なトークン化の間に連続的な視覚的詳細が破棄される。
最近の潜伏推論手法はこの課題に対処しようとするが、しばしば堅固な自己回帰的目的のために早々に意味的崩壊に陥る。
本稿では,DWAL(Dynamic Windowed Alignment Learning)を用いて視覚的推論を再構成する新しいパラダイムであるLaserを提案する。
ポイントワイズ予測を強制するのではなく、レーザーは潜在状態を将来のセマンティクスの動的妥当性ウィンドウと整列する。
このメカニズムは"Forest-before-Trees"認知階層を強制し、局所的な詳細に絞り込む前に、モデルがグローバルな特徴の確率的重ね合わせを維持することを可能にする。
重要なことは、レーザーは、自己精製重ね合わせによる制約のない学習を安定化しながら、デオード可能な軌道による解釈性を維持している。
6つのベンチマークでの大規模な実験により、レーザーは遅延推論法で最先端のパフォーマンスを達成し、強いベースラインのMonetを平均5.03%上回った。
特に、これらのゲインを極端に効率よく達成し、推論トークンを97%以上削減し、非分配領域への堅牢な一般化を実証する。
関連論文リスト
- Addressing Overthinking in Large Vision-Language Models via Gated Perception-Reasoning Optimization [56.59356959631999]
Gated Perception-Reasoning Optimization (GPRO) は3つの決定経路間で動的に計算をルーティングするメタ推論コントローラである。
GPROは精度と効率を大幅に改善し、最近のスロー思考法よりも優れている。
論文 参考訳(メタデータ) (2026-01-07T23:05:17Z) - A Survey on Latent Reasoning [100.54120559169735]
大きな言語モデル(LLM)は印象的な推論機能を示している。
中間ステップを言語化するCoT推論は、モデルの表現帯域幅を制限する。
潜在的推論は、モデルの連続的な隠れ状態に完全にマルチステップの推論を実行することで、このボトルネックに対処する。
論文 参考訳(メタデータ) (2025-07-08T17:29:07Z) - Lost at the Beginning of Reasoning [85.17612793300238]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - Efficient Post-Training Refinement of Latent Reasoning in Large Language Models [22.878147805601706]
Chain-of-Thoughtのプロンプトは十分なトークンオーバーヘッドと固定された推論軌道に悩まされ、ステップワイズの改良が妨げられる。
潜在推論の最近の進歩は、モデル潜在空間において内部推論プロセスを直接精製することによってこれらの制限に対処している。
本稿では,2つの新しい戦略を用いて遅延推論軌道を洗練する軽量なポストトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-10T08:17:16Z) - Beyond Exponential Decay: Rethinking Error Accumulation in Large Language Models [0.0]
エラーは均一に分散されていないが、重要な決定ジャンクションを表すスパースな"キートークン"に集中していることを示す。
本稿では,意味的に重要なトークンを選択的に保存することを目的とした次世代システムのためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-30T03:57:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。