論文の概要: Evolutionary System Prompt Learning for Reinforcement Learning in LLMs
- arxiv url: http://arxiv.org/abs/2602.14697v3
- Date: Wed, 25 Feb 2026 03:50:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 13:37:25.375092
- Title: Evolutionary System Prompt Learning for Reinforcement Learning in LLMs
- Title(参考訳): LLMにおける強化学習のための進化的システムプロンプト学習
- Authors: Lunjun Zhang, Ryan Chen, Bradly C. Stadie,
- Abstract要約: 大規模言語モデル(LLM)は、主に、コンテキスト更新のための自己回帰と、重み更新のための強化学習の2つのメカニズムを通じて自己改善されている。
本稿では,モデルコンテキストとモデル重みを協調的に改善する手法である進化的システムプロンプト学習(E-SPL)を提案する。
- 参考スコア(独自算出の注目度): 3.917120254079574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building agentic systems that can autonomously self-improve from experience is a longstanding goal of AI. Large language models (LLMs) today primarily self-improve via two mechanisms: self-reflection for context updates, and reinforcement learning (RL) for weight updates. In this work, we propose Evolutionary System Prompt Learning (E-SPL), a method for jointly improving model contexts and model weights. In each RL iteration, E-SPL samples trajectories under multiple system prompts in parallel, then jointly applies RL updates to LLM weights and evolutionary updates to system prompts. System prompts evolve via mutation and crossover, two genetic operators driven by LLM self-reflection; selection is based on relative performance ratings updated across RL iterations. E-SPL encourages a natural division between declarative knowledge encoded in prompts and procedural knowledge encoded in weights, resulting in improved performance across reasoning and agentic tasks. For instance, in an easy-to-hard (AIME $\rightarrow$ BeyondAIME) generalization setting, E-SPL improves RL success rate from 38.8% $\rightarrow$ 45.1% while also outperforming reflective prompt evolution (40.0%). Overall, our results demonstrate that RL and system prompt evolution are deeply synergistic, and combining the two yields consistent gains in sample efficiency and generalization. Code: https://github.com/LunjunZhang/E-SPL
- Abstract(参考訳): 経験から自律的に自己改善できるエージェントシステムを構築することは、AIの長年の目標である。
大規模言語モデル(LLM)は、主に、コンテキスト更新のための自己回帰と、重み更新のための強化学習(RL)という2つのメカニズムによって自己改善されている。
本研究では,モデルコンテキストとモデル重みを協調的に改善する手法である進化的システムプロンプト学習(E-SPL)を提案する。
各RLイテレーションでは、複数のシステムプロンプトの下でE-SPLサンプルの軌跡を並列に分析し、LLM重みへのRL更新とシステムプロンプトへの進化的更新を共同で適用する。
システムは突然変異と交叉によって進化し、LLM自己回帰によって駆動される2つの遺伝オペレーターが進化する。
E-SPLは、プロンプトにエンコードされた宣言的知識と重みにエンコードされた手続き的知識の自然な分割を奨励し、推論とエージェント的タスクをまたいだパフォーマンスを向上させる。
例えば、簡単な (AIME $\rightarrow$ BeyondAIME) 一般化設定では、E-SPL は RL の成功率を 38.8% $\rightarrow$ 45.1% から改善し、反射的な即興進化 (40.0%) も上回っている。
全体として,RLとシステムプロンプトの進化は相乗的であり,この2つの収率の組み合わせは,試料効率と一般化において一貫した利得を示す。
コード:https://github.com/LunjunZhang/E-SPL
関連論文リスト
- RLAnything: Forge Environment, Policy, and Reward Model in Completely Dynamic RL System [52.3348044324205]
クローズドループ最適化により環境・ポリシー・報酬モデルを構築する強化学習フレームワークであるRLAnythingを提案する。
具体的には、ポリシーはステップワイドおよび結果信号からの総合的なフィードバックで訓練される。
理論を動機とした自動環境適応は、報酬モデルと政策モデルの両方のトレーニングを改善する。
論文 参考訳(メタデータ) (2026-02-02T18:59:04Z) - Omni-Thinker: Scaling Multi-Task RL in LLMs with Hybrid Reward and Task Scheduling [66.0871543682453]
我々はOmni-Thinkerについて紹介する。Omni-Thinkerは多種多様なタスクにわたって大きな言語モデルをスケールする統合強化学習フレームワークである。
我々のスケジューラは,BWTに基づいてタスクを順序付けし,マルチタスク性能を向上する。
論文 参考訳(メタデータ) (2025-07-20T01:50:16Z) - AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning [23.24949857136035]
強化学習(RL)は、大規模言語モデル(LLM)の訓練において支配的なパラダイムとなっている。
本稿では,完全非同期RLシステムであるAReaLについて述べる。
論文 参考訳(メタデータ) (2025-05-30T07:18:25Z) - SeRL: Self-Play Reinforcement Learning for Large Language Models with Limited Data [65.56911325914582]
限られた初期データを用いたLarge Language Models (LLM) トレーニングのブートストラップとして,SeRL(Se-play Reinforcement Learning)を提案する。
提案したSeRLは、その結果よりも優れ、検証可能な報酬を持つ高品質なデータと同等の性能が得られる。
論文 参考訳(メタデータ) (2025-05-25T13:28:04Z) - Scalable Reinforcement Post-Training Beyond Static Human Prompts: Evolving Alignment via Asymmetric Self-Play [52.3079697845254]
evaは、オフラインとオンラインのRLポストトレーニングの両方で、言語モデルがトレーニングプロンプトを適応的に作成できるようにする最初の方法である。
我々は,エバが有効なRLキュリキュラを作成でき,アブレーションにまたがって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-10-31T08:15:32Z) - Rewarding What Matters: Step-by-Step Reinforcement Learning for Task-Oriented Dialogue [17.47550065558479]
強化学習(RL)はタスク指向対話(TOD)システムを強化するための強力なアプローチである。
既存のRL手法は主に生成タスクに焦点を合わせ、理解のために対話状態追跡(DST)を無視する傾向にある。
トークン生成全体でステップバイステップの報酬を導入し、RLを理解タスクと生成タスクの両方に拡張する。
論文 参考訳(メタデータ) (2024-06-20T16:15:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。