論文の概要: Vision-aligned Latent Reasoning for Multi-modal Large Language Model
- arxiv url: http://arxiv.org/abs/2602.04476v1
- Date: Wed, 04 Feb 2026 12:04:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.516887
- Title: Vision-aligned Latent Reasoning for Multi-modal Large Language Model
- Title(参考訳): マルチモーダル大言語モデルのための視覚対応潜時推論
- Authors: Byungwoo Jeon, Yoonwoo Jeong, Hyunseok Lee, Minsu Cho, Jinwoo Shin,
- Abstract要約: VaLR(Vision-aligned Latent Reasoning)は、思考の連鎖の推論ステップの前に動的に視覚対応の潜在トークンを生成するフレームワークである。
VaLRは、MLLMの中間埋め込みを視覚エンコーダのものと整合させることにより、推論中の視覚的知識の保存を訓練する。
- 参考スコア(独自算出の注目度): 82.26044667101011
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent advancements in Multi-modal Large Language Models (MLLMs) on diverse understanding tasks, these models struggle to solve problems which require extensive multi-step reasoning. This is primarily due to the progressive dilution of visual information during long-context generation, which hinders their ability to fully exploit test-time scaling. To address this issue, we introduce Vision-aligned Latent Reasoning (VaLR), a simple, yet effective reasoning framework that dynamically generates vision-aligned latent tokens before each Chain of Thought reasoning step, guiding the model to reason based on perceptual cues in the latent space. Specifically, VaLR is trained to preserve visual knowledge during reasoning by aligning intermediate embeddings of MLLM with those from vision encoders. Empirical results demonstrate that VaLR consistently outperforms existing approaches across a wide range of benchmarks requiring long-context understanding or precise visual perception, while exhibiting test-time scaling behavior not observed in prior MLLMs. In particular, VaLR improves the performance significantly from 33.0% to 52.9% on VSI-Bench, achieving a 19.9%p gain over Qwen2.5-VL.
- Abstract(参考訳): 近年のMLLM(Multi-modal Large Language Models)の多様な理解課題における進歩にもかかわらず、これらのモデルは広範囲な多段階推論を必要とする問題の解決に苦慮している。
これは主に、長期コンテキスト生成中の視覚情報の段階的な希薄化によるものであり、テスト時間のスケーリングを完全に活用する能力を妨げている。
この問題に対処するために、我々は、思考のチェーンの各推論ステップの前に視覚対応の潜在トークンを動的に生成する、シンプルで効果的な推論フレームワークである視覚対応の潜在推論(VaLR)を導入し、潜在空間における知覚的手がかりに基づいてモデルに推論を導く。
特に、VaLRは、MLLMの中間埋め込みを視覚エンコーダからの埋め込みと整列させることにより、推論中に視覚的知識を保存するように訓練されている。
実験結果から,VaLRは従来のMLLMでは観測されなかったテスト時間スケーリングの挙動を示しながら,長いコンテキストの理解や正確な視覚知覚を必要とする幅広いベンチマークにおいて,既存のアプローチを一貫して上回っていることが示された。
特に、VLRはVSI-Benchで33.0%から52.9%に向上し、Qwen2.5-VLで19.9%向上した。
関連論文リスト
- Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models [63.69856480318313]
AGILEは、対話的なプロセスとしてジグソー解決を定式化し、モデルが環境に徐々に関与できるようにする。
我々は AGILE がジグソータスクの性能を大幅に向上させることを示す。
また、9つの一般的な視覚タスクに対して強力な一般化を示し、平均3.1%の改善を実現した。
論文 参考訳(メタデータ) (2025-10-01T17:58:05Z) - Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation [53.84282335629258]
我々は、FG-BMKと呼ばれる包括的きめ細かい評価ベンチマークを導入し、1.01万の質問と0.33万の画像を含む。
本評価では,人間指向と機械指向の両方の観点からLVLMを体系的に検討する。
トレーニングパラダイム,モダリティアライメント,摂動感受性,および細粒度カテゴリー推論がタスクパフォーマンスに与える影響について,重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-04-21T09:30:41Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - ProReason: Multi-Modal Proactive Reasoning with Decoupled Eyesight and Wisdom [59.92786855289658]
本稿ではProReasonという新しいビジュアル推論フレームワークを紹介する。
ProReasonは、分離されたビジョン推論機能とマルチランプロアクティブな知覚を備えている。
実験の結果, ProReasonは様々なベンチマークにおいて, 既存のマルチステップ推論フレームワークよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-18T03:22:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。