論文の概要: More Than One Teacher: Adaptive Multi-Guidance Policy Optimization for Diverse Exploration
- arxiv url: http://arxiv.org/abs/2510.02227v1
- Date: Thu, 02 Oct 2025 17:14:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.243281
- Title: More Than One Teacher: Adaptive Multi-Guidance Policy Optimization for Diverse Exploration
- Title(参考訳): 1人以上の教師:多目的探索のための適応的マルチガイダンスポリシー最適化
- Authors: Xiaoyang Yuan, Yujuan Ding, Yi Bin, Wenqi Shao, Jinyu Cai, Jingkuan Song, Yang Yang, Hengtao Shen,
- Abstract要約: ガイダンス・オン・デマンド」アプローチは、自己発見の価値を保ちながら探究を広げる。
実験の結果、AMPOは強いベースラインを大幅に上回ることが示された。
ピアサイズの4人の教師を用いて、より強力な1人の教師を活用できる手法に匹敵する結果が得られる。
- 参考スコア(独自算出の注目度): 103.1589018460702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) is a promising paradigm for enhancing the reasoning ability in Large Language Models (LLMs). However, prevailing methods primarily rely on self-exploration or a single off-policy teacher to elicit long chain-of-thought (LongCoT) reasoning, which may introduce intrinsic model biases and restrict exploration, ultimately limiting reasoning diversity and performance. Drawing inspiration from multi-teacher strategies in knowledge distillation, we introduce Adaptive Multi-Guidance Policy Optimization (AMPO), a novel framework that adaptively leverages guidance from multiple proficient teacher models, but only when the on-policy model fails to generate correct solutions. This "guidance-on-demand" approach expands exploration while preserving the value of self-discovery. Moreover, AMPO incorporates a comprehension-based selection mechanism, prompting the student to learn from the reasoning paths that it is most likely to comprehend, thus balancing broad exploration with effective exploitation. Extensive experiments show AMPO substantially outperforms a strong baseline (GRPO), with a 4.3% improvement on mathematical reasoning tasks and 12.2% on out-of-distribution tasks, while significantly boosting Pass@k performance and enabling more diverse exploration. Notably, using four peer-sized teachers, our method achieves comparable results to approaches that leverage a single, more powerful teacher (e.g., DeepSeek-R1) with more data. These results demonstrate a more efficient and scalable path to superior reasoning and generalizability. Our code is available at https://github.com/SII-Enigma/AMPO.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR)は、Large Language Models (LLM)における推論能力を高めるための有望なパラダイムである。
しかし、一般的な方法は、主に自己探索または単一のオフ政治教師に頼り、本質的なモデルの偏見と探索を制限し、究極的には多様性と性能を制限しうるロングチェーン・オブ・シークレット(LongCoT)推論を引き出す。
知識蒸留における多教師戦略からインスピレーションを得て,複数の熟練教師モデルからの指導を適応的に活用する新しいフレームワークであるAdaptive Multi-Guidance Policy Optimization (AMPO)を導入する。
この"Guidance-on-demand"アプローチは、自己発見の価値を維持しながら、探索を拡張する。
さらに、AMPOは理解に基づく選択機構を導入し、学生が理解しやすい推論経路から学ぶことを促し、広義の探索と効果的な搾取のバランスをとる。
大規模な実験の結果、AMPOは強力なベースライン(GRPO)を大幅に上回り、数学的推論タスクは4.3%改善し、配布外タスクは12.2%改善し、Pass@kのパフォーマンスを大幅に向上し、より多様な探索を可能にした。
特に、4人のピアサイズの教師を用いて、より強力な1人の教師(例えばDeepSeek-R1)をより多くのデータで活用するアプローチに匹敵する結果が得られる。
これらの結果は、より良い推論と一般化可能性へのより効率的でスケーラブルな経路を示す。
私たちのコードはhttps://github.com/SII-Enigma/AMPO.comで公開されています。
関連論文リスト
- Perception-Aware Policy Optimization for Multimodal Reasoning [79.56070395437898]
現在のマルチモーダル推論における誤りの主な原因は、視覚入力の知覚にある。
提案するPAPOは,モデルが推論を学習しながら知覚を学習することを奨励する,新しいポリシー勾配アルゴリズムである。
知覚誤りの30.5%が有意に減少し,PAPOによる知覚能力の向上が示唆された。
論文 参考訳(メタデータ) (2025-07-08T23:22:34Z) - Exploring and Exploiting the Inherent Efficiency within Large Reasoning Models for Self-Guided Efficiency Enhancement [101.77467538102924]
大きな推論モデル(LRM)は、効率を阻害し、推論コストを膨らませる過剰な考えを示す。
LRM効率を向上させるための2つの軽量手法を提案する。
まず,学習不要なアクティベーションステアリング技術であるEfficic Steeringを導入する。
第2に,タスクの正確さと簡潔さを動的にバランスする強化学習フレームワークである自己回帰効率RLを開発する。
論文 参考訳(メタデータ) (2025-06-18T17:18:12Z) - Consistent Paths Lead to Truth: Self-Rewarding Reinforcement Learning for LLM Reasoning [87.7836502955847]
本稿では,Large Language Model (LLM)推論を強化するための,自己回帰型強化学習フレームワークを提案する。
私たちのキーとなる洞察は、正しい応答はモデルの可能性の観点から一貫した軌道パターンを示すことが多いということです。
本稿では,安定度とボラティリティを,頑健なベクトル空間集約戦略を通じて統合する,本質的な報酬機構であるCoVoを紹介する。
論文 参考訳(メタデータ) (2025-06-10T12:40:39Z) - Diversity-Aware Policy Optimization for Large Language Model Reasoning [30.460540027658173]
大規模言語モデルに対するRLに基づく学習における多様性の影響について検討する。
多様性を考慮したポリシー最適化手法を提案する。
本手法は4つの数学的推論ベンチマークで平均3.5パーセントの改善を実現している。
論文 参考訳(メタデータ) (2025-05-29T13:27:44Z) - Interleaved Reasoning for Large Language Models via Reinforcement Learning [22.403928213802036]
ロングチェーン・オブ・シント(CoT)は、大規模言語モデル(LLM)推論能力を向上する。
本稿では、強化学習(RL)を用いてLLMを指導し、マルチホップ質問に対する思考と回答をインターリーブする新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2025-05-26T07:58:17Z) - Offline Reinforcement Learning for LLM Multi-Step Reasoning [15.687002884103537]
OREO(Offline Reasoning Optimization)は,多段階推論の強化を目的としたオフライン強化学習手法である。
これにより、ペアワイズデータを収集する必要がなくなり、より優れたクレジット割り当てが可能になる。
マルチステップ推論ベンチマークでは、既存のオフライン学習手法を超越している。
論文 参考訳(メタデータ) (2024-12-20T18:49:45Z) - Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective [77.94874338927492]
OpenAIは、o1の背後にある主要な技術は強化学習であると主張している。
本稿では、強化学習の観点から、o1を達成するためのロードマップを分析する。
論文 参考訳(メタデータ) (2024-12-18T18:24:47Z) - Ready Policy One: World Building Through Active Learning [35.358315617358976]
本稿では,モデルに基づく強化学習を積極的学習問題とみなすフレームワークであるReady Policy One(RP1)を紹介する。
RP1は、最適化中に重要な適応を行うハイブリッド目的関数を利用することで、これを実現する。
本手法を各種連続制御タスクにおいて厳密に評価し,既存手法に比べて統計的に有意な向上を示した。
論文 参考訳(メタデータ) (2020-02-07T09:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。