論文の概要: CoCoVa: Chain of Continuous Vision-Language Thought for Latent Space Reasoning
- arxiv url: http://arxiv.org/abs/2511.02360v1
- Date: Tue, 04 Nov 2025 08:28:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.853696
- Title: CoCoVa: Chain of Continuous Vision-Language Thought for Latent Space Reasoning
- Title(参考訳): CoCoVa: 遅延空間推論のための継続的ビジョンランゲージ思考のチェーン
- Authors: Jizheng Ma, Xiaofei Zhou, Yanlong Song, Han Yan,
- Abstract要約: CoCoVaはビジョン言語モデルのための新しいフレームワークで、多種多様な視覚言語タスクに対して連続的なクロスモーダル推論を活用する。
CoCoVaの中核は反復推論サイクルであり、小説『Latent Q-Former』が動的推論エンジンとして機能する。
我々は、コントラスト学習と拡散に基づく再構成を組み合わせたマルチタスク目的でモデルを訓練する。
- 参考スコア(独自算出の注目度): 22.835301879575002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In human cognition, there exist numerous thought processes that are tacit and beyond verbal expression, enabling us to understand and interact with the world in multiple ways. However, contemporary Vision-Language Models (VLMs) remain constrained to reasoning within the discrete and rigid space of linguistic tokens, thereby bottlenecking the rich, high-dimensional nature of visual perception. To bridge this gap, we propose CoCoVa (Chain of Continuous Vision-Language Thought), a novel framework for vision-language model that leverages continuous cross-modal reasoning for diverse vision-language tasks. The core of CoCoVa is an iterative reasoning cycle, where a novel Latent Q-Former (LQ-Former) acts as a dynamic reasoning engine, iteratively refining a chain of latent thought vectors through cross-modal fusion. To focus this process, a token selection mechanism dynamically identifies salient visual regions, mimicking attentional focus. To ensure these latent thoughts remain grounded, we train the model with a multi-task objective that combines contrastive learning and diffusion-based reconstruction, enforcing alignment between latent representations and both visual and textual modalities. Evaluations show CoCoVa improves accuracy and token efficiency over strong baselines. With a 1.5B backbone, it competes with or surpasses larger 7B-9B models on almost all benchmarks. When scaled to 7B LLM backbones, it remains competitive with state-of-the-art models. Qualitative analysis validates that learned latent space captures interpretable and structured reasoning patterns, highlighting the potential of CoCoVa to bridge the representational gap between discrete language processing and the continuous nature of visual understanding.
- Abstract(参考訳): 人間の認知には、多くの思考プロセスがあり、言語表現を超えて、さまざまな方法で世界を理解し、対話することができる。
しかし、現代の視覚言語モデル(VLM)は、言語トークンの離散的かつ厳密な空間内での推論に制約され続けており、それによって視覚知覚のリッチで高次元的な性質をボトルネックにしている。
このギャップを埋めるため,多種多様な視覚言語タスクに対して,連続的な相互モーダル推論を活用するビジョン言語モデルのための新しいフレームワークであるCoCoVa(Chain of Continuous Vision-Language Thought)を提案する。
CoCoVaの中核は反復的推論サイクルであり、新しいラテントQ-フォーマー(LQ-Former)が動的推論エンジンとして機能し、クロスモーダル融合を通じてラテント思考ベクトルの連鎖を反復的に精製する。
このプロセスに焦点を合わせるため、トークン選択機構は注意焦点を模倣して、正常な視覚領域を動的に識別する。
これらの潜在的思考が根底にあることを保証するため、コントラスト学習と拡散に基づく再構成を組み合わせたマルチタスク目的でモデルを訓練し、潜在的表現と視覚的・テキスト的モダリティの整合性を強制する。
評価では、CoCoVaは強いベースラインよりも精度とトークン効率を向上させる。
1.5Bのバックボーンで、ほぼ全てのベンチマークでより大きな7B-9Bモデルと競合する。
7B LLMのバックボーンにスケールすると、最先端のモデルと競合する。
定性的分析は、学習した潜時空間が解釈可能な推論パターンと構造化された推論パターンをキャプチャし、離散言語処理と視覚的理解の連続的な性質の間の表現的ギャップを橋渡しするCoCoVaの可能性を強調する。
関連論文リスト
- Multimodal Latent Reasoning via Hierarchical Visual Cues Injection [16.779425236020433]
この研究は、頑健な推論は潜在空間内で進化し、シームレスにマルチモーダル信号を統合することを示唆している。
表面的な文章の合理性に依存することなく、意図的な「スロー思考」を具現化する新しい枠組みを提案する。
視覚知識を取り入れたテストタイムスケーリングは有効であり,階層的な情報の統合は複雑な場面に対するモデルの理解を著しく向上させることを示す。
論文 参考訳(メタデータ) (2026-02-05T06:31:12Z) - Toward Cognitive Supersensing in Multimodal Large Language Model [67.15559571626747]
我々は,MLLMに人間のような視覚的特徴を付与する訓練パラダイムであるCognitive Supersensingを紹介する。
実験では、CogSense-BenchでCognitive Supersensingを訓練したMLLMが、最先端のベースラインを大きく上回った。
私たちはCogSense-Benchとモデルウェイトをオープンソースにします。
論文 参考訳(メタデータ) (2026-02-02T02:19:50Z) - Reasoning Within the Mind: Dynamic Multimodal Interleaving in Latent Space [46.05748768260013]
テスト時間動的マルチモーダル遅延推論フレームワークを提案する。
信頼誘導の潜在ポリシー勾配最適化を、詳細な推論のために潜在シンクトークンに採用する。
7つのマルチモーダル推論ベンチマークと様々なモデルアーキテクチャによる実験により、DMLRは推論性能と知覚性能を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-12-14T10:07:45Z) - Monet: Reasoning in Latent Visual Space Beyond Images and Language [55.424507246294326]
視覚的推論を推し進める上で有効なパラダイムとして「画像で考える」が登場している。
既存の方法は、人間のような抽象的な視覚的思考に欠ける。
Monetは、マルチモーダルな大規模言語モデルを潜在視覚空間内で直接推論できるトレーニングフレームワークである。
論文 参考訳(メタデータ) (2025-11-26T13:46:39Z) - ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning [76.95203056566191]
マルチモーダル推論は言語と視覚の反復的調整を必要とするが、何が意味あるインターリーブド思考の連鎖を構成するかは定かではない。
我々はThinkMorphを開発した。ThinkMorphは、視覚的エンゲージメントの異なるタスクにまたがる、約24Kの高品質なインターリーブ付き推論トレースに基づいて微調整された統一モデルだ。
ThinkMorphは、一貫性のある言語論理を維持しながら、視覚的コンテンツを具体的に操作する、プログレッシブなテキストイメージ推論ステップを生成することを学ぶ。
論文 参考訳(メタデータ) (2025-10-30T17:51:38Z) - From Perception to Cognition: A Survey of Vision-Language Interactive Reasoning in Multimodal Large Language Models [66.36007274540113]
MLLM(Multimodal Large Language Models)は、物理的世界に対する深い人間的な理解と相互作用を達成するための試みである。
情報取得(知覚)や推論(認知)を行う際、しばしば浅く不整合な統合を示す。
この調査では、新しい統合分析フレームワーク「知覚から認知へ」を紹介した。
論文 参考訳(メタデータ) (2025-09-29T18:25:40Z) - Multimodal Chain of Continuous Thought for Latent-Space Reasoning in Vision-Language Models [1.9950682531209158]
本稿では,連続思考のマルチモーダル連鎖(MCOUT)を提案する。
MCOUTはマルチモーダル推論を継続的に改善し,高いベースラインに対して最大8.23%の精度向上が得られることを示す。
以上の結果から,言語関連CoTを超えてLMMを推し進めるための有望な方向として,潜時的連続推論が注目されている。
論文 参考訳(メタデータ) (2025-08-18T02:50:20Z) - Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。
我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文 参考訳(メタデータ) (2025-06-11T17:41:50Z) - Imagine while Reasoning in Space: Multimodal Visualization-of-Thought [70.74453180101365]
大型言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)の複雑な推論を強化するために、CoTプロンプト(Chain-of-Thought)が有効であることが証明された。
我々は新しい推論パラダイムであるMultimodal Visualization-of-Thought (MVoT)を提案する。
MLLMにおいて、推論トレースの画像視覚化を生成することにより、視覚的思考を可能にする。
論文 参考訳(メタデータ) (2025-01-13T18:23:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。