論文の概要: Selective Expert Guidance for Effective and Diverse Exploration in Reinforcement Learning of LLMs
- arxiv url: http://arxiv.org/abs/2510.04140v1
- Date: Sun, 05 Oct 2025 10:38:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.485298
- Title: Selective Expert Guidance for Effective and Diverse Exploration in Reinforcement Learning of LLMs
- Title(参考訳): LLMの強化学習における有効・多変量探索のための選択的エキスパートガイダンス
- Authors: Zishang Jiang, Jinyi Han, Tingyun Li, Xinyi Wang, Sihang Jiang, Jiaqing Liang, Zhaoqian Dai, Shuguang Ma, Fei Yu, Yanghua Xiao,
- Abstract要約: RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデル(LLM)の推論能力を高める手法として広く採用されている。
既存の手法は、有効性を向上するが多様性を無視する専門家の軌跡を模倣することでこの問題に対処する。
共振器のトーケンレベル最適化のための混合政治エキスパートナビゲーション MENTORを提案する。
- 参考スコア(独自算出の注目度): 49.72591739116668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has become a widely adopted technique for enhancing the reasoning ability of Large Language Models (LLMs). However, the effectiveness of RLVR strongly depends on the capability of base models. This issue arises because it requires the model to have sufficient capability to perform high-quality exploration, which involves both effectiveness and diversity. Unfortunately, existing methods address this issue by imitating expert trajectories, which improve effectiveness but neglect diversity. To address this, we argue that the expert only needs to provide guidance only at critical decision points rather than the entire reasoning path. Based on this insight, we propose MENTOR: Mixed-policy Expert Navigation for Token-level Optimization of Reasoning, a framework that provides expert guidance only at critical decision points to perform effective and diverse exploration in RLVR. Extensive experiments show that MENTOR enables models capture the essence of expert strategies rather than surface imitation, thereby performing high-quality exploration and achieving superior overall performance. Our code is available online.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は,Large Language Models(LLMs)の推論能力を高める手法として広く採用されている。
しかし、RLVRの有効性はベースモデルの能力に大きく依存する。
この問題は、モデルが有効性と多様性の両方を含む高品質な探索を行うのに十分な能力を必要とするためである。
残念ながら、既存の手法は専門家の軌跡を模倣することでこの問題に対処している。
この問題に対処するためには、専門家は推論パス全体ではなく、重要な意思決定ポイントのみにガイダンスを提供する必要がある、と論じる。
この知見に基づいて、我々は、RLVRにおける効果的な多種多様な探索を行うために、重要な意思決定点のみに専門家指導を提供するフレームワーク、Token-level Optimization of Reasoningのための混合政治専門家ナビゲーション(Mixed-policy Expert Navigation for Token-level Optimization of Reasoning)を提案する。
大規模な実験により、mentORは表面模倣よりもエキスパート戦略の本質を捉え、高品質な探索を行い、全体的な性能を向上させることができる。
私たちのコードはオンラインで利用可能です。
関連論文リスト
- More Than One Teacher: Adaptive Multi-Guidance Policy Optimization for Diverse Exploration [103.1589018460702]
ガイダンス・オン・デマンド」アプローチは、自己発見の価値を保ちながら探究を広げる。
実験の結果、AMPOは強いベースラインを大幅に上回ることが示された。
ピアサイズの4人の教師を用いて、より強力な1人の教師を活用できる手法に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2025-10-02T17:14:00Z) - MEML-GRPO: Heterogeneous Multi-Expert Mutual Learning for RLVR Advancement [37.880962254812175]
Multi-Expert Mutual Learning GRPOは、多様な専門家のプロンプトを利用する革新的なフレームワークである。
MEML-GRPOはQwenでは平均4.89%、Llamaでは11.33%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2025-08-13T09:58:10Z) - From Trial-and-Error to Improvement: A Systematic Analysis of LLM Exploration Mechanisms in RLVR [92.51110344832178]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるための強力なパラダイムとして登場した。
本技術報告では,RLVRにおける探査能力の体系的調査について述べる。
論文 参考訳(メタデータ) (2025-08-11T01:26:16Z) - RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [86.30192066451256]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - AMPED: Adaptive Multi-objective Projection for balancing Exploration and skill Diversification [4.722248376235009]
スキルベース強化学習(SBRL)は、スキル条件付き政策を事前訓練することにより、スパース報酬のある環境への迅速な適応を可能にする。
探索とスキル多様化(AMPED)のバランスをとるための新しい手法である適応多目的投影法を提案する。
提案手法は,SBRLのベースラインを超える性能を,様々なベンチマークで達成する。
論文 参考訳(メタデータ) (2025-06-06T10:59:39Z) - Soft Expert Reward Learning for Vision-and-Language Navigation [94.86954695912125]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、目に見えない環境で特定の場所を見つける必要がある。
本稿では,VLNタスクの工学的設計と一般化問題を克服するために,ソフトエキスパート・リワード・ラーニング(SERL)モデルを導入する。
論文 参考訳(メタデータ) (2020-07-21T14:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。