論文の概要: LaViT: Aligning Latent Visual Thoughts for Multi-modal Reasoning
- arxiv url: http://arxiv.org/abs/2601.10129v1
- Date: Thu, 15 Jan 2026 07:14:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.029754
- Title: LaViT: Aligning Latent Visual Thoughts for Multi-modal Reasoning
- Title(参考訳): LaViT:マルチモーダル推論のための潜在的視覚的思考の調整
- Authors: Linquan Wu, Tianxiang Jiang, Yifei Dong, Haoyu Yang, Fengji Zhang, Shichaang Meng, Ai Xuan, Linqi Song, Jacky Keung,
- Abstract要約: 学生モデルは、基本的に異なる視覚領域に通いながら、教師のテキスト出力を模倣することが多い。
静的な埋め込みではなく、潜在的な視覚的思考を整列させるフレームワークであるLaViTを提案する。
LaViTは視覚的グラウンディングを大幅に強化し、複雑な推論タスクで+16.9%のゲインを達成した。
- 参考スコア(独自算出の注目度): 25.571546214219747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current multimodal latent reasoning often relies on external supervision (e.g., auxiliary images), ignoring intrinsic visual attention dynamics. In this work, we identify a critical Perception Gap in distillation: student models frequently mimic a teacher's textual output while attending to fundamentally divergent visual regions, effectively relying on language priors rather than grounded perception. To bridge this, we propose LaViT, a framework that aligns latent visual thoughts rather than static embeddings. LaViT compels the student to autoregressively reconstruct the teacher's visual semantics and attention trajectories prior to text generation, employing a curriculum sensory gating mechanism to prevent shortcut learning. Extensive experiments show that LaViT significantly enhances visual grounding, achieving up to +16.9% gains on complex reasoning tasks and enabling a compact 3B model to outperform larger open-source variants and proprietary models like GPT-4o.
- Abstract(参考訳): 現在のマルチモーダル潜伏推論は、しばしば外的監督(例えば補助画像)に依存し、本質的な視覚的注意のダイナミクスを無視している。
本研究は, 蒸留における重要な知覚ギャップを同定する: 学生モデルは, 基本的に異なる視覚領域に通いながら, 教師のテキスト出力を模倣することが多い。
そこで我々は,静的な埋め込みではなく,潜在的な視覚的思考を整列させるフレームワークであるLaViTを提案する。
LaViTは、教師の視覚的意味論と注意軌跡をテキスト生成の前に自動で再構築し、ショートカット学習を防ぐためのカリキュラム感覚ゲーティング機構を使用する。
大規模な実験により、LaViTは視覚的な接地性を著しく向上し、複雑な推論タスクで+16.9%のゲインを達成し、コンパクトな3Bモデルはより大きなオープンソースモデルやGPT-4oのようなプロプライエタリなモデルより優れていることが示されている。
関連論文リスト
- Thinking with Deltas: Incentivizing Reinforcement Learning via Differential Visual Reasoning Policy [75.66913260900726]
検証可能なリワードによる強化学習は、大規模言語モデルにおいてかなり高度な推論能力を持っている。
既存のパラダイムは、テキスト中心の成果報酬によって推進され、モデルが視覚的知覚をバイパスすることを奨励します。
我々はtextbfDifferential Visual Reasoning Policy によって駆動されるフレームワーク Deltas を用いた textbfThinking を提案する。
論文 参考訳(メタデータ) (2026-01-11T08:25:34Z) - Focusing by Contrastive Attention: Enhancing VLMs' Visual Reasoning [79.34909830834464]
VLM(Vision-Language Models)は様々な視覚的タスクで顕著な成功を収めているが、複雑な視覚環境では性能が低下している。
視覚的複雑性は、注意エントロピーと強く相関し、推論性能に悪影響を及ぼすことを示す。
本稿では,CARVE(Contrastive Attention Refinement for Visual Enhancement)を提案する。
論文 参考訳(メタデータ) (2025-09-08T09:20:04Z) - Argus: Vision-Centric Reasoning with Grounded Chain-of-Thought [83.89629325805505]
我々は、新しい視覚的注意基盤機構で制限に対処するためにArgusを導入する。
提案手法では、物体中心の接地を視覚的連鎖信号として採用し、より効果的な目標条件付き視覚的注意を可能にする。
論文 参考訳(メタデータ) (2025-05-29T17:59:56Z) - Visual Abstract Thinking Empowers Multimodal Reasoning [11.70318717106245]
画像は通常、テキストよりもリッチな詳細を伝達するが、多モード推論性能を低下させる冗長な情報を含むことが多い。
この認知戦略に触発されて、視覚的抽象思考(VAT)を導入する。
VATは、明示的な言語思考や精巧なガイダンスではなく、視覚的に抽象的なマルチモーダル大言語モデル(MLLM)を推進します。
実験の結果,VATはGPT-4oベースラインよりも平均17%向上することがわかった。
論文 参考訳(メタデータ) (2025-05-26T16:06:35Z) - A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では,視覚言語モデル(VLM)における知覚推論インタフェースを識別するための構造化評価フレームワークを提案する。
本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。
このフレームワークを適用したCAは、リッチで独立に生成された記述を推論するために強力な言語モデルを活用し、新しい最先端(SOTA)パフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2025-01-23T12:42:42Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Beyond the Doors of Perception: Vision Transformers Represent Relations Between Objects [30.09778169168547]
ビジョントランス (ViT) は様々な環境で最先端のパフォーマンスを実現している。
しかし、視覚的関係を含むタスクを遂行する際、驚くべき失敗を経験する。
論文 参考訳(メタデータ) (2024-06-22T22:43:10Z) - Interpretable Visual Question Answering via Reasoning Supervision [4.76359068115052]
トランスフォーマーベースのアーキテクチャは、最近Visual Question Answering (VQA)タスクで顕著なパフォーマンスを示している。
本稿では,視覚的質問応答のための新しいアーキテクチャを提案する。
提案手法がモデルの視覚知覚能力を向上し,性能向上につながることを定量的かつ定性的に示す。
論文 参考訳(メタデータ) (2023-09-07T14:12:31Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。