論文の概要: Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning
- arxiv url: http://arxiv.org/abs/2602.20197v1
- Date: Sun, 22 Feb 2026 07:23:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.458258
- Title: Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning
- Title(参考訳): マルチモーダル推論のためのハイブリッドポリシングRLVRにおける制御可能な探索
- Authors: Zhuoxu Huang, Mengxi Jia, Hao Sun, Xuelong Li, Jungong Han,
- Abstract要約: CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。
CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
- 参考スコア(独自算出の注目度): 88.42566960813438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with verifiable rewards (RLVR) has emerged as a primary learning paradigm for enhancing the reasoning capabilities of multi-modal large language models (MLLMs). However, during RL training, the enormous state space of MLLM and sparse rewards often leads to entropy collapse, policy degradation, or over-exploitation of suboptimal behaviors. This necessitates an exploration strategy that maintains productive stochasticity while avoiding the drawbacks of uncontrolled random sampling, yielding inefficient exploration. In this paper, we propose CalibRL, a hybrid-policy RLVR framework that supports controllable exploration with expert guidance, enabled by two key mechanisms. First, a distribution-aware advantage weighting scales updates by group rareness to calibrate the distribution, therefore preserving exploration. Meanwhile, the asymmetric activation function (LeakyReLU) leverages the expert knowledge as a calibration baseline to moderate overconfident updates while preserving their corrective direction. CalibRL increases policy entropy in a guided manner and clarifies the target distribution by estimating the on-policy distribution through online sampling. Updates are driven by these informative behaviors, avoiding convergence to erroneous patterns. Importantly, these designs help alleviate the distributional mismatch between the model's policy and expert trajectories, thereby achieving a more stable balance between exploration and exploitation. Extensive experiments across eight benchmarks, including both in-domain and out-of-domain settings, demonstrate consistent improvements, validating the effectiveness of our controllable hybrid-policy RLVR training. Code is available at https://github.com/zhh6425/CalibRL.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verible rewards)は,MLLM(Multi-modal large language model)の推論能力を高めるための主要な学習パラダイムとして登場した。
しかし、RLトレーニングの間、MLLMとスパース報酬の巨大な状態空間は、しばしばエントロピー崩壊、政策劣化、あるいは最適以下の行動の過剰な露光を引き起こす。
これは、非制御ランダムサンプリングの欠点を回避しつつ、生産的確率性を維持する探索戦略を必要とし、非効率な探索をもたらす。
本稿では,2つのキーメカニズムによって実現された,制御可能な探査を支援するハイブリッド政治RLVRフレームワークCalibRLを提案する。
第一に、分布対応の利点は、分布を校正するためにグループレアネスによる更新をスケールし、従って探索を保存する。
一方、非対称アクティベーション関数(LeakyReLU)は、専門家の知識をキャリブレーションベースラインとして活用し、その補正方向を保ちながら、過信更新を適度に行う。
CalibRLは政策のエントロピーを誘導的に増加させ、オンラインサンプリングによるオンライン配信を推定することで目標分布を明確化する。
更新はこれらの情報的行動によって引き起こされ、誤ったパターンへの収束を避ける。
これらの設計は、モデルの方針と専門家の軌道との分布的ミスマッチを緩和し、探索と搾取のバランスをより安定したものにするのに役立つ。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークにわたる大規模な実験は、一貫した改善を示し、制御可能なハイブリッド・ポリティクスRLVRトレーニングの有効性を検証する。
コードはhttps://github.com/zhh6425/CalibRLで入手できる。
関連論文リスト
- When Sharpening Becomes Collapse: Sampling Bias and Semantic Coupling in RL with Verifiable Rewards [20.896576101848655]
本稿では,既存の知識を応用した強化学習が,新たな能力を引き出すのか,それとも単に知識の分布を絞るだけなのかを考察する。
本稿では,メモリネットワークを介したサンプリングの多様化を図るために,難解なクエリと分散レベルのキャリブレーションを優先する逆サクセス・アドバンス・キャリブレーションを提案する。
論文 参考訳(メタデータ) (2026-01-22T03:15:57Z) - The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward [57.56453588632619]
Reinforcement Learning with Verifiable Reward (RLVR) を用いた細調整大型言語モデル(LLM)における中心的パラドックスは、多目的性能の頻繁な劣化である。
これはしばしば破滅的な忘れが伴い、モデルが以前獲得したスキルを失う。
我々は,標準RLVR目標には知識保持のための重要なメカニズムが欠如していると主張している。
論文 参考訳(メタデータ) (2025-09-09T06:34:32Z) - RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [111.1749164063616]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z) - Normality-Guided Distributional Reinforcement Learning for Continuous Control [13.818149654692863]
平均戻り値の予測モデル、すなわち値関数の学習は多くの強化学習アルゴリズムにおいて重要な役割を果たす。
本研究では,複数の連続制御タスクにおける値分布について検討し,学習した値分布が正常に近いことを実証的に確認した。
本稿では,標準値関数に存在しない値分布の構造的特性によって測定された正当性に基づくポリシー更新戦略を提案する。
論文 参考訳(メタデータ) (2022-08-28T02:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。