Fugu-MT 論文翻訳(概要): Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning

論文の概要: Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning

arxiv url: http://arxiv.org/abs/2602.20197v1
Date: Sun, 22 Feb 2026 07:23:36 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.458258
Title: Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning
Title（参考訳）: マルチモーダル推論のためのハイブリッドポリシングRLVRにおける制御可能な探索
Authors: Zhuoxu Huang, Mengxi Jia, Hao Sun, Xuelong Li, Jungong Han,
Abstract要約: CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。 CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
参考スコア（独自算出の注目度）: 88.42566960813438
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement Learning with verifiable rewards (RLVR) has emerged as a primary learning paradigm for enhancing the reasoning capabilities of multi-modal large language models (MLLMs). However, during RL training, the enormous state space of MLLM and sparse rewards often leads to entropy collapse, policy degradation, or over-exploitation of suboptimal behaviors. This necessitates an exploration strategy that maintains productive stochasticity while avoiding the drawbacks of uncontrolled random sampling, yielding inefficient exploration. In this paper, we propose CalibRL, a hybrid-policy RLVR framework that supports controllable exploration with expert guidance, enabled by two key mechanisms. First, a distribution-aware advantage weighting scales updates by group rareness to calibrate the distribution, therefore preserving exploration. Meanwhile, the asymmetric activation function (LeakyReLU) leverages the expert knowledge as a calibration baseline to moderate overconfident updates while preserving their corrective direction. CalibRL increases policy entropy in a guided manner and clarifies the target distribution by estimating the on-policy distribution through online sampling. Updates are driven by these informative behaviors, avoiding convergence to erroneous patterns. Importantly, these designs help alleviate the distributional mismatch between the model's policy and expert trajectories, thereby achieving a more stable balance between exploration and exploitation. Extensive experiments across eight benchmarks, including both in-domain and out-of-domain settings, demonstrate consistent improvements, validating the effectiveness of our controllable hybrid-policy RLVR training. Code is available at https://github.com/zhh6425/CalibRL.
Abstract（参考訳）: RLVR(Reinforcement Learning with Verible rewards)は,MLLM(Multi-modal large language model)の推論能力を高めるための主要な学習パラダイムとして登場した。しかし、RLトレーニングの間、MLLMとスパース報酬の巨大な状態空間は、しばしばエントロピー崩壊、政策劣化、あるいは最適以下の行動の過剰な露光を引き起こす。これは、非制御ランダムサンプリングの欠点を回避しつつ、生産的確率性を維持する探索戦略を必要とし、非効率な探索をもたらす。本稿では,2つのキーメカニズムによって実現された,制御可能な探査を支援するハイブリッド政治RLVRフレームワークCalibRLを提案する。第一に、分布対応の利点は、分布を校正するためにグループレアネスによる更新をスケールし、従って探索を保存する。一方、非対称アクティベーション関数(LeakyReLU)は、専門家の知識をキャリブレーションベースラインとして活用し、その補正方向を保ちながら、過信更新を適度に行う。 CalibRLは政策のエントロピーを誘導的に増加させ、オンラインサンプリングによるオンライン配信を推定することで目標分布を明確化する。更新はこれらの情報的行動によって引き起こされ、誤ったパターンへの収束を避ける。これらの設計は、モデルの方針と専門家の軌道との分布的ミスマッチを緩和し、探索と搾取のバランスをより安定したものにするのに役立つ。ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークにわたる大規模な実験は、一貫した改善を示し、制御可能なハイブリッド・ポリティクスRLVRトレーニングの有効性を検証する。コードはhttps://github.com/zhh6425/CalibRLで入手できる。

関連論文リスト

Learning to Explore with Parameter-Space Noise: A Deep Dive into Parameter-Space Noise for Reinforcement Learning with Verifiable Rewards [16.22162269278471]
PSN-RLVRは、ロールアウト生成前にポリシーパラメータを摂動させ、時間的に一貫した軌道レベルの探索を誘導する。本稿では,意味的多様性と正規化自己確実性を組み合わせた軽量サロゲートによって駆動される,計算効率のよいリアルタイム適応ノイズスケジューラを提案する。
論文参考訳（メタデータ） (2026-01-30T13:10:30Z)
When Sharpening Becomes Collapse: Sampling Bias and Semantic Coupling in RL with Verifiable Rewards [20.896576101848655]
本稿では,既存の知識を応用した強化学習が,新たな能力を引き出すのか,それとも単に知識の分布を絞るだけなのかを考察する。本稿では,メモリネットワークを介したサンプリングの多様化を図るために,難解なクエリと分散レベルのキャリブレーションを優先する逆サクセス・アドバンス・キャリブレーションを提案する。
論文参考訳（メタデータ） (2026-01-22T03:15:57Z)
Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文参考訳（メタデータ） (2025-12-02T14:42:54Z)
The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward [57.56453588632619]
Reinforcement Learning with Verifiable Reward (RLVR) を用いた細調整大型言語モデル(LLM)における中心的パラドックスは、多目的性能の頻繁な劣化である。これはしばしば破滅的な忘れが伴い、モデルが以前獲得したスキルを失う。我々は,標準RLVR目標には知識保持のための重要なメカニズムが欠如していると主張している。
論文参考訳（メタデータ） (2025-09-09T06:34:32Z)
RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [111.1749164063616]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。 RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文参考訳（メタデータ） (2025-07-31T23:55:29Z)
GenPO: Generative Diffusion Models Meet On-Policy Reinforcement Learning [34.25769740497309]
GenPOは、正確な拡散反転を利用して、可逆なアクションマッピングを構築する、生成ポリシー最適化フレームワークである。 GenPOは、大規模な並列化トレーニングと実世界のロボット展開の可能性を解き放ち、拡散ポリシーをオンプレミスのRLにうまく統合する最初の方法である。
論文参考訳（メタデータ） (2025-05-24T15:57:07Z)
Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文参考訳（メタデータ） (2024-05-25T10:45:46Z)
One-Step Distributional Reinforcement Learning [10.64435582017292]
簡単な一段階分散強化学習(OS-DistrRL)フレームワークを提案する。当社のアプローチには,政策評価と統制の両面での統一理論があることが示されている。ほぼ確実に収束解析を行う2つのOS-DistrRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-04-27T06:57:00Z)
Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文参考訳（メタデータ） (2023-01-27T15:18:54Z)
Normality-Guided Distributional Reinforcement Learning for Continuous Control [13.818149654692863]
平均戻り値の予測モデル、すなわち値関数の学習は多くの強化学習アルゴリズムにおいて重要な役割を果たす。本研究では,複数の連続制御タスクにおける値分布について検討し,学習した値分布が正常に近いことを実証的に確認した。本稿では,標準値関数に存在しない値分布の構造的特性によって測定された正当性に基づくポリシー更新戦略を提案する。
論文参考訳（メタデータ） (2022-08-28T02:52:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。