論文の概要: CoLVR: Enhancing Exploratory Latent Visual Reasoning via Contrastive Optimization
- arxiv url: http://arxiv.org/abs/2605.08802v2
- Date: Tue, 12 May 2026 08:46:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 18:21:06.932564
- Title: CoLVR: Enhancing Exploratory Latent Visual Reasoning via Contrastive Optimization
- Title(参考訳): CoLVR: コントラスト最適化による探索的潜在視覚推論の強化
- Authors: Ziyang Ding, Linjian Meng, Yiming Wu, Yuhan Li, Yuhao Liu, Zhen Zhao,
- Abstract要約: 遅延視覚推論(CoLVR)のためのコントラスト最適化法を提案する。
CoLVRは多様で探索的な表現を、角度に基づく摂動によって導かれる、相対的に対照的な目的によって学習する。
実験により、CoLVRは潜伏表現の探索能力を大幅に向上させることが示された。
- 参考スコア(独自算出の注目度): 9.696781633987692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the potential for exploratory reasoning of Latent Visual Reasoning, recent works tend to enable MLLMs (Multimodal Large Language Models) to perform visual reasoning by propagating continuous hidden states instead of decoding intermediate steps into discrete tokens. However, existing works typically rely on hard alignment objectives to force latent representations to match predefined visual features, thereby severely limiting the exploratory of latent reasoning process. To address this problem, we propose CoLVR (Contrastive Optimization for Latent Visual Reasoning). To obtain a more exploratory visual reasoning, CoLVR introduces a latent contrastive training framework. Firstly, CoLVR learns diverse and exploratory representations with a latent contrastive objective guided by angle-based perturbation, which expands the semantic latent space and avoids over-constrained embedding. Then, CoLVR employs a latent trajectory contrastive reward for RL (Reinforcement Learning) post-training to enable fine-grained optimization of latent visual reasoning process and thus fostering diverse reasoning behaviors. Experiments demonstrate that CoLVR significantly enhances the exploratory capability of latent representations, achieving average improvements of 5.83% on VSP and 8.00% on Jigsaw, while also outperforming existing latent models on out of domain benchmarks, with a 3.40% gain on MMStar. The data, codes, and models are released at https://github.com/Oscar-dzy/CoLVR.
- Abstract(参考訳): 後期視覚推論の探索的推論の可能性のため、近年の研究はMLLM(Multimodal Large Language Models)が、中間ステップを離散トークンに復号する代わりに、連続的な隠れ状態の伝播によって視覚的推論を行う傾向にある。
しかし、既存の研究は一般的に、事前定義された視覚的特徴と一致するように潜伏表現を強制するためにハードアライメントの目的に依存しており、したがって潜伏推論プロセスの探索を著しく制限している。
この問題に対処するため,我々はCoLVR (Contrastive Optimization for Latent Visual Reasoning)を提案する。
より探索的な視覚的推論を得るために、CoLVRは遅延コントラストトレーニングフレームワークを導入した。
第一に、CoLVRは、多様で探索的な表現を、角度に基づく摂動によって導かれる潜在的コントラストの目的で学習し、セマンティックな潜伏空間を拡張し、過剰に拘束された埋め込みを避ける。
次に、CoLVRは、RL(Reinforcement Learning)後学習に対して、潜在的な視覚的推論プロセスのきめ細かい最適化を可能にし、多様な推論行動を育むために、潜在軌道の対照的な報酬を用いる。
実験によると、CoLVRは潜伏表現の探索能力を大幅に向上し、VSPで5.83%、Jigsawで8.00%の平均的な改善を実現している。
データ、コード、モデルはhttps://github.com/Oscar-dzy/CoLVR.comで公開される。
関連論文リスト
- Visual Latents Know More Than They Say: Unsilencing Latent Reasoning in MLLMs [54.16324124242172]
連続潜在空間推論は、マルチモーダルモデルに対するテキストチェーンのコンパクトな代替を提供する。
既存の視覚的推論手法では,これまで見過ごされてきた最適化病理を同定する。
パラメータ更新を伴わない推論時間潜時最適化は、視覚潜時における抑止的推論能力を効果的に解き放つことを示す。
論文 参考訳(メタデータ) (2026-05-04T15:36:12Z) - Guiding Diffusion-based Reconstruction with Contrastive Signals for Balanced Visual Representation [81.40978077888693]
対照的に、CLIP(Contrastive Language- Image Pre-training)は、下流のパフォーマンスにおいて重要なボトルネックとなっている。
近年のソリューションでは、拡散モデルを用いて、CLIP視覚トークンに画像再構成を条件付けることで表現を強化する。
我々は、より包括的な視覚表現を追求するために、コントラスト信号を拡散に基づく再構成に統合する。
論文 参考訳(メタデータ) (2026-03-05T04:45:49Z) - Vision-aligned Latent Reasoning for Multi-modal Large Language Model [82.26044667101011]
VaLR(Vision-aligned Latent Reasoning)は、思考の連鎖の推論ステップの前に動的に視覚対応の潜在トークンを生成するフレームワークである。
VaLRは、MLLMの中間埋め込みを視覚エンコーダのものと整合させることにより、推論中の視覚的知識の保存を訓練する。
論文 参考訳(メタデータ) (2026-02-04T12:04:02Z) - Latent-Space Contrastive Reinforcement Learning for Stable and Efficient LLM Reasoning [16.244366307890832]
textbfDeepLatent Reasoning(DLR)を提案する。
このフレームワークは、試行錯誤コストを、高価なトークンレベルのフルシーケンス生成から連続潜在多様体へシフトさせる。
実験により、DLRはより安定した訓練収束を実現し、より長い水平推論チェーンをサポートし、推論能力の持続的な蓄積を促進することが示されている。
論文 参考訳(メタデータ) (2026-01-24T03:18:22Z) - From Sight to Insight: Improving Visual Reasoning Capabilities of Multimodal Models via Reinforcement Learning [12.548754243700657]
マルチモーダルな大言語モデル(MLLM)は、視覚情報の統合に欠ける推論を生成する。
このようなタスクにおいて視覚的知覚が重要なボトルネックであることを示し、クロード3.5では26.7%、クロード3.7では23.6%の利得を得た。
我々は,イメージ理解,思考ステップ,回答精度など,異なる推論的側面を対象とする6つの報酬関数を設計・評価する。
Qwen-2.5-VL-7Bの実験では、ベースモデルよりも5.56%改善されており、ドメイン内設定とドメイン外設定の両方で一貫して改善されている。
論文 参考訳(メタデータ) (2026-01-01T05:19:28Z) - VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning [62.09195763860549]
検証可能な報酬(RLVR)による強化学習は、大きな言語モデル(LLM)の推論を改善するが、探索に苦労する。
出力(テキスト)から入力(視覚)空間へ探索をシフトする新しい手法である$textbfVOGUE(Visual Uncertainty Guided Exploration)を紹介した。
本研究は,視覚入力の本質的不確実性における基盤探索が,マルチモーダル推論を改善するための効果的な戦略であることを示す。
論文 参考訳(メタデータ) (2025-10-01T20:32:08Z) - Hybrid Latent Reasoning via Reinforcement Learning [50.6763762323985]
大規模言語モデル(LLM)の能力を活用した強化学習(RL)による潜時推論について検討する。
RLをベースとしたハイブリッド潜在推論手法であるハイブリッド推論ポリシー最適化(HRPO)を導入する。
HRPOで訓練されたLLMは解釈可能であり、言語横断パターンや短い完了長といった興味深い挙動を示す。
論文 参考訳(メタデータ) (2025-05-24T01:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。