論文の概要: Training-Free Group Relative Policy Optimization
- arxiv url: http://arxiv.org/abs/2510.08191v1
- Date: Thu, 09 Oct 2025 13:18:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.089969
- Title: Training-Free Group Relative Policy Optimization
- Title(参考訳): 学習自由グループ相対的政策最適化
- Authors: Yuzheng Cai, Siqi Cai, Yuchen Shi, Zihan Xu, Lichao Chen, Yulei Qin, Xiaoyu Tan, Gang Li, Zongyi Li, Haojia Lin, Yong Mao, Ke Li, Xing Sun,
- Abstract要約: 我々は,Large Language Model (LLM) エージェントが,経験的知識を先行するトークンとして学習することで,出力分布に類似した効果を得られることを論じる。
我々は,LLMエージェントの性能をパラメータ更新なしで向上する,費用対効果の高いソリューションであるTraining-Free Group Relative Policy Optimization (Training-Free GRPO)を提案する。
数学的推論とWeb検索タスクの実験により、DeepSeek-V3.1-Terminusに適用されたトレーニングフリーGRPOは、ドメイン外のパフォーマンスを大幅に改善することを示した。
- 参考スコア(独自算出の注目度): 34.73950078782136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Large Language Model (LLM) agents have demonstrated their promising general capabilities. However, their performance in specialized real-world domains often degrades due to challenges in effectively integrating external tools and specific prompting strategies. While methods like agentic reinforcement learning have been proposed to address this, they typically rely on costly parameter updates, for example, through a process that uses Supervised Fine-Tuning (SFT) followed by a Reinforcement Learning (RL) phase with Group Relative Policy Optimization (GRPO) to alter the output distribution. However, we argue that LLMs can achieve a similar effect on the output distribution by learning experiential knowledge as a token prior, which is a far more lightweight approach that not only addresses practical data scarcity but also avoids the common issue of overfitting. To this end, we propose Training-Free Group Relative Policy Optimization (Training-Free GRPO), a cost-effective solution that enhances LLM agent performance without any parameter updates. Our method leverages the group relative semantic advantage instead of numerical ones within each group of rollouts, iteratively distilling high-quality experiential knowledge during multi-epoch learning on a minimal ground-truth data. Such knowledge serves as the learned token prior, which is seamlessly integrated during LLM API calls to guide model behavior. Experiments on mathematical reasoning and web searching tasks demonstrate that Training-Free GRPO, when applied to DeepSeek-V3.1-Terminus, significantly improves out-of-domain performance. With just a few dozen training samples, Training-Free GRPO outperforms fine-tuned small LLMs with marginal training data and cost.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントの最近の進歩は、その有望な汎用能力を実証している。
しかし、外部ツールと特定のプロンプト戦略を効果的に統合することの難しさから、特定の現実世界のドメインでのそれらのパフォーマンスは劣化することが多い。
これを解決するためにエージェント強化学習のような手法が提案されているが、一般的にはコストのかかるパラメータの更新に頼っている。例えば、スーパーバイザード・ファインチューニング(SFT)を使ったプロセスや、グループ相対政策最適化(GRPO)による強化学習(RL)フェーズで出力分布を変更するプロセスなどである。
しかし, LLM は経験的知識を先行するトークンとして学習することで, 出力分布に類似した効果が得られ, 実際のデータ不足に対処するだけでなく, オーバーフィッティングの一般的な問題を回避するための, はるかに軽量なアプローチである。
この目的のために,LLMエージェントの性能をパラメータ更新なしで向上する費用対効果の高いソリューションであるTraining-Free Group Relative Policy Optimization (Training-Free GRPO)を提案する。
提案手法は,各ロールアウト群における数値データではなく,グループ間の相対的セマンティックな優位性を生かし,最小のグランドトラストデータを用いたマルチエポック学習において,高品質な経験的知識を反復的に蒸留する。
このような知識は、学習したトークンとして機能し、LLM API呼び出し中にシームレスに統合され、モデルの振る舞いをガイドします。
数学的推論とWeb検索タスクの実験により、DeepSeek-V3.1-Terminusに適用されたトレーニングフリーGRPOは、ドメイン外のパフォーマンスを大幅に改善することを示した。
ほんの数ダースのトレーニングサンプルで、トレーニングフリーのGRPOは、訓練データとコストで微調整された小さなLLMより優れています。
関連論文リスト
- Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - DUMP: Automated Distribution-Level Curriculum Learning for RL-based LLM Post-training [19.701565022644605]
本稿では,分布レベルの学習可能性の概念に基づくカリキュラム学習フレームワークを提案する。
我々のフレームワークは、高い平均的優位性(探索)または低いサンプル数(探索)で分布を優先順位付けする。
実験の結果,本フレームワークは収束速度と最終性能を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2025-04-13T20:10:27Z) - Large Language Models as Attribution Regularizers for Efficient Model Training [0.0]
大規模言語モデル(LLM)は、様々な領域で顕著なパフォーマンスを示している。
我々は,LLM生成したグローバルタスク特徴属性を,より小さなネットワークのトレーニングプロセスに組み込む方法を提案する。
我々のアプローチは、数ショットの学習シナリオにおいて優れたパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2025-02-27T16:55:18Z) - Model Extrapolation Expedites Alignment [135.12769233630362]
本研究では,人選好によるアライメントトレーニングを迅速化するExPOという手法を提案する。
我々は、ExPOがトレーニングされたDPOモデルを20%のステップで強化し、完全に訓練されたモデルを上回ることを実証した。
ExPO は AlpacaEval 2.0 と MT-Bench ベンチマークにおいて,既存のオープンソース LLM を特に改善している。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。