論文の概要: Self-Consistent Latent Reasoning: Long Latent Sequence Reasoning for Vision-Language Model
- arxiv url: http://arxiv.org/abs/2605.12163v2
- Date: Wed, 13 May 2026 02:23:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 17:13:58.902458
- Title: Self-Consistent Latent Reasoning: Long Latent Sequence Reasoning for Vision-Language Model
- Title(参考訳): 自己持続潜時推論:視覚言語モデルのための長潜時推論
- Authors: Chenfeng Wang, Wei He, Xuhan Zhu, Chunpeng Zhou, Qizhen Li, Song Yan, Yufei Zheng, Chengjun Yu, Fan Lu, Wei Zhai, Yang Cao, Pengfei Yu, Zheng-Jun Zha,
- Abstract要約: SCOLAR(Self-Consistent LAtent Reasoning)は、1枚のショットで補助的な視覚トークンを生成する軽量なデコンバータを導入している。
SCOLARは許容遅延CoT長を30ドル以上延長し、実世界の推論ベンチマークでオープンソースモデルの間で最先端を実現している。
- 参考スコア(独自算出の注目度): 56.21523258053447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In language reasoning, longer chains of thought consistently yield better performance, which naturally suggests that visual latent reasoning may likewise benefit from longer latent sequences. However, we discover a counterintuitive phenomenon: the performance of existing latent visual reasoning methods systematically degrades as the latent sequence grows longer. We reveal the root cause: Information Gain Collapse -- autoregressive generation makes each step highly dependent on prior outputs, so subsequent tokens can barely introduce new information. We further identify that heavily pooled ($\geq 128\times$) image embeddings used as supervision targets provide no more signal than meaningless placeholders. Motivated by these insights, we propose SCOLAR (Self-COnsistent LAtent Reasoning), which introduces a lightweight detransformer that leverages the LLM's full-sequence hidden states to generate auxiliary visual tokens in a single shot, with each token independently anchored to the original visual space. Combined with three-stage SFT and ALPO reinforcement learning, SCOLAR extends acceptable latent CoT length by over $30\times$, achieves state-of-the-art among open-source models on real-world reasoning benchmarks (+14.12% over backbone), and demonstrates strong out-of-distribution generalization.
- Abstract(参考訳): 言語推論において、長い思考の連鎖は、常により良いパフォーマンスをもたらす。
しかし,既存の潜時的推論手法の性能は,潜時的シーケンスが長くなるにつれて体系的に低下する。
Information Gain Collapse -- 自動回帰生成は各ステップを事前の出力に強く依存させるため、後続のトークンは新しい情報を導入することはほとんどできません。
さらに、監視対象として使用される画像埋め込みは、意味のないプレースホルダー以上の信号を提供していないことも確認しています。
これらの知見に触発されたSCOLAR(Self-Consistent LAtent Reasoning)は,LLMの完全列隠蔽状態を利用した軽量なデコンバータを導入し,各トークンを独立して元の視覚空間に固定した補助的な視覚トークンを生成する。
3段階のSFTとALPO強化学習を組み合わせることで、SCOLARは30ドル以上の遅延CoT長を許容し、実世界の推論ベンチマーク(+14.12%オーバーボーン)のオープンソースモデルの間で最先端を実現し、分配外一般化を強く示している。
関連論文リスト
- Visual Latents Know More Than They Say: Unsilencing Latent Reasoning in MLLMs [54.16324124242172]
連続潜在空間推論は、マルチモーダルモデルに対するテキストチェーンのコンパクトな代替を提供する。
既存の視覚的推論手法では,これまで見過ごされてきた最適化病理を同定する。
パラメータ更新を伴わない推論時間潜時最適化は、視覚潜時における抑止的推論能力を効果的に解き放つことを示す。
論文 参考訳(メタデータ) (2026-05-04T15:36:12Z) - Reflect to Inform: Boosting Multimodal Reasoning via Information-Gain-Driven Verification [55.357038267439684]
Visual Re-Examination (VRE)は、MLLMが視覚的な入力を追加することなく推論中に自律的に視覚的イントロスペクションを実行することができる自己進化型トレーニングフレームワークである。
VREは推論精度と知覚信頼性を継続的に改善し、特にロングチェーン環境では幻覚を著しく低減する。
論文 参考訳(メタデータ) (2026-03-27T12:22:13Z) - Imagination Helps Visual Reasoning, But Not Yet in Latent Space [65.80396132375571]
因果関係分析を用いた潜伏推論の有効性について検討した。
潜在トークンが限られた視覚情報を符号化し、高い類似性を示すことを示す。
CapImagineという簡単な代替案を提案し、テキストを明示的に想像するようにモデルに教える。
論文 参考訳(メタデータ) (2026-02-26T08:56:23Z) - CrystaL: Spontaneous Emergence of Visual Latents in MLLMs [55.34169914483764]
CrystaL(Crystallized Latent Reasoning)は,静止画像と劣化画像を処理するための2つの経路を持つ単一ステージフレームワークである。
CrystaLは2つの経路にまたがる注意パターンと予測分布を明確に調整することで、潜在表現をタスク関連視覚意味論に結晶化する。
知覚集約ベンチマークの実験では、CrystaLは最先端のベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-24T15:01:30Z) - Forest Before Trees: Latent Superposition for Efficient Visual Reasoning [61.29300723302152]
レーザーは動的ウィンドウアライメント学習(DWAL)を通して視覚的推論を再構成する新しいパラダイムである
レーザーは遅延推論法で最先端のパフォーマンスを達成し、強いベースラインのモネを平均5.03%上回る。
論文 参考訳(メタデータ) (2026-01-11T08:30:49Z) - Beyond Exponential Decay: Rethinking Error Accumulation in Large Language Models [0.0]
エラーは均一に分散されていないが、重要な決定ジャンクションを表すスパースな"キートークン"に集中していることを示す。
本稿では,意味的に重要なトークンを選択的に保存することを目的とした次世代システムのためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-30T03:57:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。