論文の概要: VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2510.01444v1
- Date: Wed, 01 Oct 2025 20:32:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.859814
- Title: VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning
- Title(参考訳): VOGUE: マルチモーダル推論を改善する視覚的不確実性による探索のガイド
- Authors: Rui Liu, Dian Yu, Tong Zheng, Runpeng Dai, Zongxia Li, Wenhao Yu, Zhenwen Liang, Linfeng Song, Haitao Mi, Pratap Tokekar, Dong Yu,
- Abstract要約: 検証可能な報酬(RLVR)による強化学習は、大きな言語モデル(LLM)の推論を改善するが、探索に苦労する。
出力(テキスト)から入力(視覚)空間へ探索をシフトする新しい手法である$textbfVOGUE(Visual Uncertainty Guided Exploration)を紹介した。
本研究は,視覚入力の本質的不確実性における基盤探索が,マルチモーダル推論を改善するための効果的な戦略であることを示す。
- 参考スコア(独自算出の注目度): 62.09195763860549
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) improves reasoning in large language models (LLMs) but struggles with exploration, an issue that still persists for multimodal LLMs (MLLMs). Current methods treat the visual input as a fixed, deterministic condition, overlooking a critical source of ambiguity and struggling to build policies robust to plausible visual variations. We introduce $\textbf{VOGUE (Visual Uncertainty Guided Exploration)}$, a novel method that shifts exploration from the output (text) to the input (visual) space. By treating the image as a stochastic context, VOGUE quantifies the policy's sensitivity to visual perturbations using the symmetric KL divergence between a "raw" and "noisy" branch, creating a direct signal for uncertainty-aware exploration. This signal shapes the learning objective via an uncertainty-proportional bonus, which, combined with a token-entropy bonus and an annealed sampling schedule, effectively balances exploration and exploitation. Implemented within GRPO on two model scales (Qwen2.5-VL-3B/7B), VOGUE boosts pass@1 accuracy by an average of 2.6% on three visual math benchmarks and 3.7% on three general-domain reasoning benchmarks, while simultaneously increasing pass@4 performance and mitigating the exploration decay commonly observed in RL fine-tuning. Our work shows that grounding exploration in the inherent uncertainty of visual inputs is an effective strategy for improving multimodal reasoning.
- Abstract(参考訳): 検証可能な報酬(RLVR)による強化学習は、大きな言語モデル(LLM)の推論を改善するが、探索に苦慮する。
現在の方法では、視覚入力を固定された決定論的条件として扱い、あいまいさの重要な源を見落とし、妥当な視覚的バリエーションに頑健なポリシーを構築するのに苦労している。
出力(テキスト)から入力(視覚)空間へ探索をシフトする新しい方法である$\textbf{VOGUE (Visual Uncertainty Guided Exploration)$を紹介する。
VOGUEは、画像を確率的文脈として扱うことにより、"raw"と"noisy"ブランチ間の対称KL偏差を用いて、ポリシーの視覚摂動に対する感度を定量化し、不確実性を認識した探索のための直接的な信号を生成する。
この信号は、トークンエントロピーボーナスとアニールサンプリングスケジュールを組み合わせた不確実性比例ボーナスによって学習目標を形作り、効果的に探索と利用のバランスをとる。
2つのモデルスケール(Qwen2.5-VL-3B/7B)でGRPO内で実装されたVOGUEは、3つのビジュアル数学ベンチマークで平均2.6%、一般的な推論ベンチマークで3.7%の精度でパス@1の精度を向上し、同時にパス@4のパフォーマンスを向上し、RL微細チューニングでよく見られる探索崩壊を緩和する。
本研究は,視覚入力の本質的不確実性における基盤探索が,マルチモーダル推論を改善するための効果的な戦略であることを示す。
関連論文リスト
- Vision-aligned Latent Reasoning for Multi-modal Large Language Model [82.26044667101011]
VaLR(Vision-aligned Latent Reasoning)は、思考の連鎖の推論ステップの前に動的に視覚対応の潜在トークンを生成するフレームワークである。
VaLRは、MLLMの中間埋め込みを視覚エンコーダのものと整合させることにより、推論中の視覚的知識の保存を訓練する。
論文 参考訳(メタデータ) (2026-02-04T12:04:02Z) - CASHEW: Stabilizing Multimodal Reasoning via Iterative Trajectory Aggregation [6.356820150960838]
視覚言語モデルを安定させるために,テスト時間スケーリングにインスパイアされた2つの補完的アプローチを導入する。
CASHEWは推論時のフレームワークで、複数の候補軌道を高品質な推論トレースに反復的に集約することで推論を安定化する。
CASHEW-RL はグループシーケンスポリシー最適化 (GSPO) を用いて訓練されており、最小でも十分な視覚的証拠に根ざした正しい回答を促す複合報酬が提供されている。
論文 参考訳(メタデータ) (2026-01-12T21:24:45Z) - Ground What You See: Hallucination-Resistant MLLMs via Caption Feedback, Diversity-Aware Sampling, and Conflict Regularization [38.469173375694076]
マルチモーダル大言語モデル(MLLM)における幻覚の根本原因を系統的に解析する。
1)不正確な初期記述が後続の推論を誤った前提に固定する連鎖的視覚推論の過度な信頼、(2)政策最適化中の探索の多様性が不十分で、過度に自信があるが誤ったアウトプットを発生させる要因、(3)トレーニングサンプル間の破壊的な衝突、NTKの類似性が誤関連や不安定なパラメータ更新を引き起こす要因である。
実験の結果,提案手法は幻覚率を著しく低減し,MLLMの推論精度を効果的に向上することが示された。
論文 参考訳(メタデータ) (2026-01-09T07:59:18Z) - Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model [62.889356203346985]
本稿では,モダリティ競合を処理する世界モデル拡張VLAフレームワークである Dual-STream diffusion (DUST) を提案する。
DUSTは標準のVLAベースラインと暗黙のワールドモデリングメソッドよりも最大6%向上する。
Franka Research 3による実世界のタスクでは、DUSTは成功率のベースラインを13%上回っている。
論文 参考訳(メタデータ) (2025-10-31T16:32:12Z) - CoFFT: Chain of Foresight-Focus Thought for Visual Language Models [61.34272727005052]
フォレスト・フォーカス思考の連鎖(英語: Chain of Foresight-Focus Thought, CoFFT)は、人間の視覚的認知をエミュレートすることによって視覚的推論を強化する訓練のないアプローチである。
これらの段階は反復的に機能し、推論が視覚的焦点を導き、視覚的焦点がその後の推論を知らせる相互依存サイクルを生成する。
Qwen2.5-VL、InternVL-2.5、Llava-Nextを使った複数のベンチマークでの実証結果では、3.1-5.8%が一貫したパフォーマンス向上を示し、計算オーバーヘッドは増大した。
論文 参考訳(メタデータ) (2025-09-26T07:46:30Z) - From Benchmarks to Reality: Advancing Visual Anomaly Detection by the VAND 3.0 Challenge [4.03804045800094]
本稿では, 異常検出の現在の進歩を示すために, VAND 3.0 Challengeを提案する。
このチャレンジでは2つのトラックが開催され、現実世界の分布シフトに対して堅牢な異常検出手法の開発が促進された。
参加者のソリューションは、既存のアプローチを組み合わせたり、適応させたりすることで、以前のベースラインよりも大幅に改善された。
論文 参考訳(メタデータ) (2025-09-22T11:27:49Z) - CDE: Curiosity-Driven Exploration for Efficient Reinforcement Learning in Large Language Models [85.315711639214]
モデル固有の好奇心を利用して探索をガイドするフレームワークであるCuriosity-Driven Exploration (CDE)を紹介した。
アクターに対しては、生成された応答に対してパープレキシティを使用し、批判に対しては、マルチヘッドアーキテクチャからの値推定のばらつきを利用する。
理論的分析により,アクターのボーナスは本質的に過度に信頼された誤りを罰し,正しい反応の多様性を促進することが示唆された。
論文 参考訳(メタデータ) (2025-09-11T17:59:17Z) - Visual hallucination detection in large vision-language models via evidential conflict [24.465497252040294]
Dempster-Shafer理論(DST)に基づく不確実性推定によるLVLMの視覚幻覚検出法
そこで本研究では,LVLMの視覚幻覚検出手法として,DST(Dempster-Shafer theory)を用いた第1次視覚幻覚検出法を提案する。
論文 参考訳(メタデータ) (2025-06-24T11:03:10Z) - One RL to See Them All: Visual Triple Unified Reinforcement Learning [92.90120580989839]
V-Triuneは、視覚的推論と知覚タスクを1つのトレーニングパイプライン内で実現するビジュアルトリプル統一強化学習システムである。
V-Triuneは3つの補完的なコンポーネントで構成されている: Sample-Level Datashelf (多様なタスク入力を統一する)、Verifier-Level Reward (特殊検証を通じてカスタム報酬を提供する)。
本稿では,V-Triuneが処理する知覚タスクに対して適応的,進行的,明確なフィードバックを提供する,新しい動的IoU報酬を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:41:14Z) - A Hitchhikers Guide to Fine-Grained Face Forgery Detection Using Common Sense Reasoning [9.786907179872815]
視覚と言語の可能性は、いまだに偽造検出に過小評価されている。
顔偽造検出を視覚質問応答(VQA)タスクに変換する方法論が必要である。
このギャップに対処するために,従来の二項決定パラダイムから分岐する多段階的アプローチを提案する。
論文 参考訳(メタデータ) (2024-10-01T08:16:40Z) - Seeing is Believing? Enhancing Vision-Language Navigation using Visual Perturbations [41.5875455113941]
先進的なVLNモデルが実際の環境の視覚的内容を理解しているかどうかを検討する。
意外なことに、ノイズの多い視覚入力であっても、単純な分岐展開は、パラドックス的にナビゲーションの有効性を向上する。
分岐量と視覚的品質の両方の影響を探索する多機能マルチブランチアーキテクチャ(MBA)を提案する。
論文 参考訳(メタデータ) (2024-09-09T12:17:38Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - A Vision Based Deep Reinforcement Learning Algorithm for UAV Obstacle
Avoidance [1.2693545159861856]
UAV障害物回避のための探索を改善するための2つの技術を紹介します。
ひとつは収束に基づくアプローチで、探索されていない動作と時間しきい値を反復して探索と搾取のバランスをとる。
2つ目は、ガウス混合分布を用いて予測された次の状態と比較し、次のアクションを選択するためのガイダンスベースアプローチである。
論文 参考訳(メタデータ) (2021-03-11T01:15:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。