論文の概要: Guided Verifier: Collaborative Multimodal Reasoning via Dynamic Process Supervision
- arxiv url: http://arxiv.org/abs/2602.04290v1
- Date: Wed, 04 Feb 2026 07:38:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.424278
- Title: Guided Verifier: Collaborative Multimodal Reasoning via Dynamic Process Supervision
- Title(参考訳): ガイド検証:動的プロセススーパービジョンによる協調的マルチモーダル推論
- Authors: Lingzhuang Sun, Ruitong Liu, Yuxia Zhu, Xiaohan Xu, Jingxuan Wei, Xiangxiang Zhang, Bihui Yu, Wentao Zhang,
- Abstract要約: マルチモーダル大規模言語モデル(MLLM)の複雑な推論能力を高めるための重要なメカニズムとして強化学習(RL)が登場した。
本稿では,これらの構造的制約に対処する textbfGuided Verifier フレームワークを提案する。
我々は,マルチモーダル幻覚をターゲットとした特殊なデータ合成パイプラインを開発し,プロセスレベルの負の textbfCoRe データセットとtextbfCorrect-guide textbfReasoning トラジェクトリを構築し,ガイド付き検証器を訓練する。
- 参考スコア(独自算出の注目度): 11.159231524113764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) has emerged as a pivotal mechanism for enhancing the complex reasoning capabilities of Multimodal Large Language Models (MLLMs). However, prevailing paradigms typically rely on solitary rollout strategies where the model works alone. This lack of intermediate oversight renders the reasoning process susceptible to error propagation, where early logical deviations cascade into irreversible failures, resulting in noisy optimization signals. In this paper, we propose the \textbf{Guided Verifier} framework to address these structural limitations. Moving beyond passive terminal rewards, we introduce a dynamic verifier that actively co-solves tasks alongside the policy. During the rollout phase, this verifier interacts with the policy model in real-time, detecting inconsistencies and providing directional signals to steer the model toward valid trajectories. To facilitate this, we develop a specialized data synthesis pipeline targeting multimodal hallucinations, constructing \textbf{CoRe} dataset of process-level negatives and \textbf{Co}rrect-guide \textbf{Re}asoning trajectories to train the guided verifier. Extensive experiments on MathVista, MathVerse and MMMU indicate that by allocating compute to collaborative inference and dynamic verification, an 8B-parameter model can achieve strong performance.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、MLLM(Multimodal Large Language Models)の複雑な推論能力を高めるための重要なメカニズムとして登場した。
しかし、一般的なパラダイムは、モデルが単独で機能する単独のロールアウト戦略に依存している。
この中間的な監視の欠如は、初期論理偏差がカスケードを不可逆的な失敗に陥り、ノイズの多い最適化信号をもたらすような、エラーの伝播に影響を受けやすい推論プロセスを引き起こす。
本稿では,これらの構造的制約に対処するために,textbf{Guided Verifier} フレームワークを提案する。
受動的端末報酬を超えて、ポリシーに沿ったタスクを積極的に解決する動的検証器を導入する。
ロールアウトフェーズにおいて、この検証はポリシーモデルとリアルタイムに相互作用し、不整合を検出し、有効な軌道に向けてモデルを操る方向信号を提供する。
これを容易にするために、プロセスレベルの負の \textbf{CoRe} データセットと、ガイド付き検証器を訓練する \textbf{Co}rrect-guide \textbf{Re}asoning trajectories を構築し、マルチモーダル幻覚をターゲットとした特殊なデータ合成パイプラインを開発する。
MathVista、MathVerse、MMMUの大規模な実験は、計算を協調推論と動的検証に割り当てることで、8Bパラメータモデルが強い性能を達成することを示唆している。
関連論文リスト
- Beyond Unimodal Shortcuts: MLLMs as Cross-Modal Reasoners for Grounded Named Entity Recognition [51.68340973140949]
GMNER(Multimodal Named Entity Recognition)は、テキストベースのエンティティを抽出し、セマンティックカテゴリを割り当て、それらを対応する視覚領域に接地することを目的としている。
MLLMは、視覚バイアスやテキストバイアスを含む$textbfmodality bias$を示す。
本稿では,モダリティを考慮した一貫性推論(bfMCR$)を提案する。
論文 参考訳(メタデータ) (2026-02-04T12:12:49Z) - OMG-Agent: Toward Robust Missing Modality Generation with Decoupled Coarse-to-Fine Agentic Workflows [9.617220633655716]
textbfunderlineOmni-textbfunderlineModality textbfunderlineGeneration Agent (textbfOMG-Agent)について述べる。
論文 参考訳(メタデータ) (2026-02-04T02:25:40Z) - Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - Reasoning Palette: Modulating Reasoning via Latent Contextualization for Controllable Exploration for (V)LMs [49.66344956133349]
推論能力は、大規模な(ビジョン)言語モデルのための推論時間性能と強化学習(RL)トレーニングの両方を形作る。
本稿では,戦略的文脈化のための潜在変数をモデルに付与する新しい潜在変調フレームワークであるReasoning Paletteを提案する。
論文 参考訳(メタデータ) (2025-12-19T03:32:53Z) - TIM-PRM: Verifying multimodal reasoning with Tool-Integrated PRM [45.91545449507256]
MLLM(Multimodal Large Language Models)は、数学的推論において優れた性能を発揮する。
視覚幻覚や論理的不整合に弱いままであり、標準的な結果に基づく監督が軽減に失敗する。
TIM-PRMは,受動的分類タスクから能動的ツール強化調査へ検証を変換する新しいエージェントフレームワークである。
論文 参考訳(メタデータ) (2025-11-28T09:01:38Z) - Causal Model-Based Reinforcement Learning for Sample-Efficient IoT Channel Access [39.76683291751265]
メディアアクセス制御(MAC)などの無線利用事例に対するマルチエージェント強化学習(MARL)は、そのサンプル非効率によって妨げられる。
本稿では、因果学習からツールを活用することで、因果モデルに基づく新しいMARLフレームワークを開発する。
提案手法は, モデルフリーベースラインに比べて環境相互作用を58%削減し, 収束を高速化する。
論文 参考訳(メタデータ) (2025-11-13T13:26:33Z) - Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。