論文の概要: Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens
- arxiv url: http://arxiv.org/abs/2511.19418v1
- Date: Mon, 24 Nov 2025 18:55:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.376451
- Title: Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens
- Title(参考訳): チェーン・オブ・ザウト:連続型ビジュアル・トークンでVLMをよく見、考えることを教える
- Authors: Yiming Qin, Bomin Wei, Jiaxin Ge, Konstantinos Kallidromitis, Stephanie Fu, Trevor Darrell, Xudong Wang,
- Abstract要約: Chain-of-Visual-Thought (COVT)は、ビジョンランゲージモデル(VLM)が連続的な視覚トークンを通じて推論できるようにするフレームワークである。
約20枚のトークンからなる小さな予算の中で、COVTは軽量ビジョンの専門家から知識を抽出する。
トレーニング中、COVTを持つVLMは視覚トークンを自動回帰予測し、密集した監視信号を再構築する。
- 参考スコア(独自算出の注目度): 54.18057944158818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) excel at reasoning in linguistic space but struggle with perceptual understanding that requires dense visual perception, e.g., spatial reasoning and geometric awareness. This limitation stems from the fact that current VLMs have limited mechanisms to capture dense visual information across spatial dimensions. We introduce Chain-of-Visual-Thought (COVT), a framework that enables VLMs to reason not only in words but also through continuous visual tokens-compact latent representations that encode rich perceptual cues. Within a small budget of roughly 20 tokens, COVT distills knowledge from lightweight vision experts, capturing complementary properties such as 2D appearance, 3D geometry, spatial layout, and edge structure. During training, the VLM with COVT autoregressively predicts these visual tokens to reconstruct dense supervision signals (e.g., depth, segmentation, edges, and DINO features). At inference, the model reasons directly in the continuous visual token space, preserving efficiency while optionally decoding dense predictions for interpretability. Evaluated across more than ten diverse perception benchmarks, including CV-Bench, MMVP, RealWorldQA, MMStar, WorldMedQA, and HRBench, integrating COVT into strong VLMs such as Qwen2.5-VL and LLaVA consistently improves performance by 3% to 16% and demonstrates that compact continuous visual thinking enables more precise, grounded, and interpretable multimodal intelligence.
- Abstract(参考訳): VLM(Vision-Language Models)は、言語空間における推論において優れているが、密集した視覚的知覚、例えば空間的推論、幾何学的認識を必要とする知覚的理解に苦慮している。
この制限は、現在のVLMが空間次元にわたって密集した視覚情報をキャプチャする限られたメカニズムを持っているという事実に起因している。
このフレームワークは、VLMが単語だけでなく、リッチな知覚的手がかりをエンコードする連続的な視覚トークンコンパクト表現を通しても推論できる。
約20のトークンからなる小さな予算の中で、COVTは軽量な視覚の専門家から知識を抽出し、2Dの外観、3D幾何学、空間配置、エッジ構造などの相補的な特性を捉えている。
トレーニング中、COVTを持つVLMは、これらの視覚トークンを自動回帰予測して、密集した監視信号(例えば、深さ、セグメンテーション、エッジ、DINO特徴)を再構成する。
推論では、モデルが連続的な視覚トークン空間に直結し、効率を保ちながら、解釈可能性のための密度の高い予測を任意に復号する。
CV-Bench、MMVP、RealWorldQA、MMStar、WorldMedQA、HRBenchを含む10以上の様々な知覚ベンチマークで評価され、COVTをQwen2.5-VLやLLaVAのような強力なVLMに統合することで、連続的な視覚的思考がより正確で、基礎的で、解釈可能なマルチモーダルインテリジェンスを実現することを示す。
関連論文リスト
- Attention Guided Alignment in Efficient Vision-Language Models [56.20286899428444]
VLM(Large Vision-Language Models)は、事前訓練された視覚エンコーダとLLM(Large Language Models)の効果的なマルチモーダルアライメントに依存している。
本稿では,効率的なVLMにおける注意パターンの包括的解析について述べる。
本稿では,Attention-Guided Efficient Vision-Language Models (AGE-VLM)を紹介する。
論文 参考訳(メタデータ) (2025-11-21T21:36:48Z) - Visual Jigsaw Post-Training Improves MLLMs [58.29961336087896]
大規模言語モデル(MLLM)における視覚的理解を強化するために設計された,汎用的な自己教師型ポストトレーニングフレームワークであるVisual Jigsawを紹介する。
視覚的な入力は分割され、シャッフルされ、モデルは自然言語で正しい置換を生成することで視覚情報を再構築する必要がある。
広範囲な実験により、微粒な知覚、時間的推論、空間的理解が大幅に改善された。
論文 参考訳(メタデータ) (2025-09-29T17:59:57Z) - Latent Visual Reasoning [40.347006722601975]
視覚埋め込み空間に直接自己回帰推論を可能にする新しいパラダイムであるLatent Visual Reasoning(LVR)を紹介する。
その結果,LVRは細粒度視認と知覚を著しく改善し,MMVPでは71.67%,Qwen2.5-VLでは66.67%であった。
論文 参考訳(メタデータ) (2025-09-29T03:52:01Z) - Revisit What You See: Disclose Language Prior in Vision Tokens for LVLM Decoding [6.612630497074871]
LVLM(Large Vision-Language Models)は、視覚認識と言語理解を統合することで、マルチモーダルタスクにおける強力なパフォーマンスを実現する。
テキスト生成のガイドとして視覚トークンを参照するトレーニング不要な復号法であるReVisiTを提案する。
論文 参考訳(メタデータ) (2025-06-11T08:46:55Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - D-Attn: Decomposed Attention for Large Vision-and-Language Models [29.611769371733672]
大規模視覚・言語モデル(LVLM)のためのより柔軟な注意アーキテクチャである分解注意アーキテクチャ(D-Attn)を提案する。
D-AttnはLVLMの1次元因果自認を視覚的・視覚的・視覚的・テキスト的・テキスト的に分解する。
実験と解析によりD-Attnの有効性が検証され、複数の画像ベンチマークで大幅な改善が示された。
論文 参考訳(メタデータ) (2025-02-04T00:46:11Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。