論文の概要: VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2510.01444v1
- Date: Wed, 01 Oct 2025 20:32:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.859814
- Title: VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning
- Title(参考訳): VOGUE: マルチモーダル推論を改善する視覚的不確実性による探索のガイド
- Authors: Rui Liu, Dian Yu, Tong Zheng, Runpeng Dai, Zongxia Li, Wenhao Yu, Zhenwen Liang, Linfeng Song, Haitao Mi, Pratap Tokekar, Dong Yu,
- Abstract要約: 検証可能な報酬(RLVR)による強化学習は、大きな言語モデル(LLM)の推論を改善するが、探索に苦労する。
出力(テキスト)から入力(視覚)空間へ探索をシフトする新しい手法である$textbfVOGUE(Visual Uncertainty Guided Exploration)を紹介した。
本研究は,視覚入力の本質的不確実性における基盤探索が,マルチモーダル推論を改善するための効果的な戦略であることを示す。
- 参考スコア(独自算出の注目度): 62.09195763860549
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) improves reasoning in large language models (LLMs) but struggles with exploration, an issue that still persists for multimodal LLMs (MLLMs). Current methods treat the visual input as a fixed, deterministic condition, overlooking a critical source of ambiguity and struggling to build policies robust to plausible visual variations. We introduce $\textbf{VOGUE (Visual Uncertainty Guided Exploration)}$, a novel method that shifts exploration from the output (text) to the input (visual) space. By treating the image as a stochastic context, VOGUE quantifies the policy's sensitivity to visual perturbations using the symmetric KL divergence between a "raw" and "noisy" branch, creating a direct signal for uncertainty-aware exploration. This signal shapes the learning objective via an uncertainty-proportional bonus, which, combined with a token-entropy bonus and an annealed sampling schedule, effectively balances exploration and exploitation. Implemented within GRPO on two model scales (Qwen2.5-VL-3B/7B), VOGUE boosts pass@1 accuracy by an average of 2.6% on three visual math benchmarks and 3.7% on three general-domain reasoning benchmarks, while simultaneously increasing pass@4 performance and mitigating the exploration decay commonly observed in RL fine-tuning. Our work shows that grounding exploration in the inherent uncertainty of visual inputs is an effective strategy for improving multimodal reasoning.
- Abstract(参考訳): 検証可能な報酬(RLVR)による強化学習は、大きな言語モデル(LLM)の推論を改善するが、探索に苦慮する。
現在の方法では、視覚入力を固定された決定論的条件として扱い、あいまいさの重要な源を見落とし、妥当な視覚的バリエーションに頑健なポリシーを構築するのに苦労している。
出力(テキスト)から入力(視覚)空間へ探索をシフトする新しい方法である$\textbf{VOGUE (Visual Uncertainty Guided Exploration)$を紹介する。
VOGUEは、画像を確率的文脈として扱うことにより、"raw"と"noisy"ブランチ間の対称KL偏差を用いて、ポリシーの視覚摂動に対する感度を定量化し、不確実性を認識した探索のための直接的な信号を生成する。
この信号は、トークンエントロピーボーナスとアニールサンプリングスケジュールを組み合わせた不確実性比例ボーナスによって学習目標を形作り、効果的に探索と利用のバランスをとる。
2つのモデルスケール(Qwen2.5-VL-3B/7B)でGRPO内で実装されたVOGUEは、3つのビジュアル数学ベンチマークで平均2.6%、一般的な推論ベンチマークで3.7%の精度でパス@1の精度を向上し、同時にパス@4のパフォーマンスを向上し、RL微細チューニングでよく見られる探索崩壊を緩和する。
本研究は,視覚入力の本質的不確実性における基盤探索が,マルチモーダル推論を改善するための効果的な戦略であることを示す。
関連論文リスト
- CoFFT: Chain of Foresight-Focus Thought for Visual Language Models [61.34272727005052]
フォレスト・フォーカス思考の連鎖(英語: Chain of Foresight-Focus Thought, CoFFT)は、人間の視覚的認知をエミュレートすることによって視覚的推論を強化する訓練のないアプローチである。
これらの段階は反復的に機能し、推論が視覚的焦点を導き、視覚的焦点がその後の推論を知らせる相互依存サイクルを生成する。
Qwen2.5-VL、InternVL-2.5、Llava-Nextを使った複数のベンチマークでの実証結果では、3.1-5.8%が一貫したパフォーマンス向上を示し、計算オーバーヘッドは増大した。
論文 参考訳(メタデータ) (2025-09-26T07:46:30Z) - From Benchmarks to Reality: Advancing Visual Anomaly Detection by the VAND 3.0 Challenge [4.03804045800094]
本稿では, 異常検出の現在の進歩を示すために, VAND 3.0 Challengeを提案する。
このチャレンジでは2つのトラックが開催され、現実世界の分布シフトに対して堅牢な異常検出手法の開発が促進された。
参加者のソリューションは、既存のアプローチを組み合わせたり、適応させたりすることで、以前のベースラインよりも大幅に改善された。
論文 参考訳(メタデータ) (2025-09-22T11:27:49Z) - CDE: Curiosity-Driven Exploration for Efficient Reinforcement Learning in Large Language Models [85.315711639214]
モデル固有の好奇心を利用して探索をガイドするフレームワークであるCuriosity-Driven Exploration (CDE)を紹介した。
アクターに対しては、生成された応答に対してパープレキシティを使用し、批判に対しては、マルチヘッドアーキテクチャからの値推定のばらつきを利用する。
理論的分析により,アクターのボーナスは本質的に過度に信頼された誤りを罰し,正しい反応の多様性を促進することが示唆された。
論文 参考訳(メタデータ) (2025-09-11T17:59:17Z) - Visual hallucination detection in large vision-language models via evidential conflict [24.465497252040294]
Dempster-Shafer理論(DST)に基づく不確実性推定によるLVLMの視覚幻覚検出法
そこで本研究では,LVLMの視覚幻覚検出手法として,DST(Dempster-Shafer theory)を用いた第1次視覚幻覚検出法を提案する。
論文 参考訳(メタデータ) (2025-06-24T11:03:10Z) - One RL to See Them All: Visual Triple Unified Reinforcement Learning [92.90120580989839]
V-Triuneは、視覚的推論と知覚タスクを1つのトレーニングパイプライン内で実現するビジュアルトリプル統一強化学習システムである。
V-Triuneは3つの補完的なコンポーネントで構成されている: Sample-Level Datashelf (多様なタスク入力を統一する)、Verifier-Level Reward (特殊検証を通じてカスタム報酬を提供する)。
本稿では,V-Triuneが処理する知覚タスクに対して適応的,進行的,明確なフィードバックを提供する,新しい動的IoU報酬を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:41:14Z) - A Hitchhikers Guide to Fine-Grained Face Forgery Detection Using Common Sense Reasoning [9.786907179872815]
視覚と言語の可能性は、いまだに偽造検出に過小評価されている。
顔偽造検出を視覚質問応答(VQA)タスクに変換する方法論が必要である。
このギャップに対処するために,従来の二項決定パラダイムから分岐する多段階的アプローチを提案する。
論文 参考訳(メタデータ) (2024-10-01T08:16:40Z) - Seeing is Believing? Enhancing Vision-Language Navigation using Visual Perturbations [41.5875455113941]
先進的なVLNモデルが実際の環境の視覚的内容を理解しているかどうかを検討する。
意外なことに、ノイズの多い視覚入力であっても、単純な分岐展開は、パラドックス的にナビゲーションの有効性を向上する。
分岐量と視覚的品質の両方の影響を探索する多機能マルチブランチアーキテクチャ(MBA)を提案する。
論文 参考訳(メタデータ) (2024-09-09T12:17:38Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - A Vision Based Deep Reinforcement Learning Algorithm for UAV Obstacle
Avoidance [1.2693545159861856]
UAV障害物回避のための探索を改善するための2つの技術を紹介します。
ひとつは収束に基づくアプローチで、探索されていない動作と時間しきい値を反復して探索と搾取のバランスをとる。
2つ目は、ガウス混合分布を用いて予測された次の状態と比較し、次のアクションを選択するためのガイダンスベースアプローチである。
論文 参考訳(メタデータ) (2021-03-11T01:15:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。