論文の概要: Enhancing the Outcome Reward-based RL Training of MLLMs with Self-Consistency Sampling
- arxiv url: http://arxiv.org/abs/2511.10648v1
- Date: Fri, 14 Nov 2025 02:01:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.97643
- Title: Enhancing the Outcome Reward-based RL Training of MLLMs with Self-Consistency Sampling
- Title(参考訳): 自己整合サンプリングによるMLLMのアウトカム・リワードに基づくRLトレーニングの強化
- Authors: Jiahao Wang, Weiye Xu, Aijun Yang, Wengang Zhou, Lewei Lu, Houqiang Li, Xiaohua Wang, Jinguo Zhu,
- Abstract要約: マルチモーダル大言語モデル(MLLM)のステップ・バイ・ステップ推論を洗練させる手段としては,アウトカム・リワード強化学習(RL)が一般的であり,ますます重要になっている。
この問題を修正するために,自己整合サンプリング(SCS)を提案する。
Qwen2.5-VL-7B-インストラクトに基づいて、SCSは、無視できる余分な計算を伴う6つのマルチモーダルベンチマークにおいて、最大7.7ポイントの精度を向上する。
- 参考スコア(独自算出の注目度): 90.87033586963828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Outcome-reward reinforcement learning (RL) is a common and increasingly significant way to refine the step-by-step reasoning of multimodal large language models (MLLMs). In the multiple-choice setting - a dominant format for multimodal reasoning benchmarks - the paradigm faces a significant yet often overlooked obstacle: unfaithful trajectories that guess the correct option after a faulty chain of thought receive the same reward as genuine reasoning, which is a flaw that cannot be ignored. We propose Self-Consistency Sampling (SCS) to correct this issue. For each question, SCS (i) introduces small visual perturbations and (ii) performs repeated truncation and resampling of an initial trajectory; agreement among the resulting trajectories yields a differentiable consistency score that down-weights unreliable traces during policy updates. Based on Qwen2.5-VL-7B-Instruct, plugging SCS into RLOO, GRPO, and REINFORCE++ series improves accuracy by up to 7.7 percentage points on six multimodal benchmarks with negligible extra computation. SCS also yields notable gains on both Qwen2.5-VL-3B-Instruct and InternVL3-8B, offering a simple, general remedy for outcome-reward RL in MLLMs.
- Abstract(参考訳): アウトカム・リワード強化学習(英: Outcome-Reward reinforcement learning、RL)は、マルチモーダル・大規模言語モデル(MLLM)のステップ・バイ・ステップ推論を洗練させる一般的な方法である。
マルチモーダル推論ベンチマークの主要なフォーマットであるマルチチョイス設定では、このパラダイムは、しばしば見落とされがちな障害に直面している。
この問題を修正するために,自己整合サンプリング(SCS)を提案する。
各質問に対して、SCS
(i)小さな視覚摂動を導入し、
(ii) 初期軌跡の繰り返し切り返しと再サンプリングを行い、結果として得られた軌跡間の合意は、政策更新中に信頼性の低いトレースをダウンウェイトする、微分可能な整合性スコアを得る。
Qwen2.5-VL-7B-Instructに基づいて、ROO、GRPO、REINFORCE++シリーズにSCSを組み込むことで、6つのマルチモーダルベンチマークで最大7.7ポイントの精度が向上する。
SCSはまた、Qwen2.5-VL-3B-InstructとInternVL3-8Bの両方で顕著な利得を得ており、MLLMにおける結果回帰RLの単純で一般的な治療を提供する。
関連論文リスト
- CoT-Saliency: Unified Chain-of-Thought Reasoning for Heterogeneous Saliency Tasks [96.64597365827046]
本稿では,3つの運用上不均一なサリエンシタスクを共同で処理する,最初の統合フレームワークを提案する。
タスクの不均一性を橋渡しする視覚言語モデル(VLM)において、チェーン・オブ・ソート(CoT)推論プロセスを導入する。
我々は,全タスクにまたがる特別なSOTA手法と強力なクローズドソースVLMの整合性を示す。
論文 参考訳(メタデータ) (2025-11-01T04:37:01Z) - MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources [113.33902847941941]
VAS (Variance-Aware Sampling) は、Variance Promotion Score (VPS) によって導かれるデータ選択戦略である。
我々は、1.6MのCoT冷間開始データと15kのRLQAペアを含む大規模かつ慎重にキュレートされたリソースをリリースする。
数学的推論ベンチマークによる実験では、キュレートされたデータと提案されたVASの有効性が示されている。
論文 参考訳(メタデータ) (2025-09-25T14:58:29Z) - RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [111.1749164063616]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - Omni-Thinker: Scaling Multi-Task RL in LLMs with Hybrid Reward and Task Scheduling [66.0871543682453]
我々はOmni-Thinkerについて紹介する。Omni-Thinkerは多種多様なタスクにわたって大きな言語モデルをスケールする統合強化学習フレームワークである。
我々のスケジューラは,BWTに基づいてタスクを順序付けし,マルチタスク性能を向上する。
論文 参考訳(メタデータ) (2025-07-20T01:50:16Z) - APO: Enhancing Reasoning Ability of MLLMs via Asymmetric Policy Optimization [43.30674910774084]
MLLM(Multimodal Large Language Models)は多様なデータを統合する能力があるが、複雑な推論に苦しむことが多い。
本研究は,KLのペナルティと過剰思考がMLLMのRLトレーニングにどのように影響するかを検討する。
正試料については,KLの分散重み付けを困難度に基づいて動的に調整するために,DADS(Difficulty-Adaptive Divergence Shaping)を導入している。
負のサンプルに対しては、過度に長い応答をペナルタイズするために、最適軌道複雑度正規化(STCR)を提案する。
論文 参考訳(メタデータ) (2025-06-26T17:57:08Z) - GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - Reasoning Aware Self-Consistency: Leveraging Reasoning Paths for Efficient LLM Sampling [9.44858963874474]
自己整合性は、複数の推論経路をサンプリングすることによって、大規模言語モデル(LLM)における幻覚を緩和する。
本稿では、サンプリング効率を高め、忠実性を推論する新しいフレームワークであるReasoning-Aware Self-Consistency (RASC)を紹介する。
論文 参考訳(メタデータ) (2024-08-30T05:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。