論文の概要: Evolutionary System Prompt Learning can Facilitate Reinforcement Learning for LLMs
- arxiv url: http://arxiv.org/abs/2602.14697v1
- Date: Mon, 16 Feb 2026 12:34:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.403049
- Title: Evolutionary System Prompt Learning can Facilitate Reinforcement Learning for LLMs
- Title(参考訳): LLMの強化学習を支援する進化的システムプロンプト学習
- Authors: Lunjun Zhang, Ryan Chen, Bradly C. Stadie,
- Abstract要約: 本稿では,モデルコンテキストとモデル重みを協調的に改善する手法である進化的システムプロンプト学習(E-SPL)を提案する。
各RLイテレーションでは、E-SPLは複数のシステムプロンプトを選択し、並列にロールアウトを実行する。
RLの更新は、各システムプロンプトで条件付けられたモデルウェイトに適用される。
- 参考スコア(独自算出の注目度): 3.917120254079574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building agentic systems that can autonomously self-improve from experience is a longstanding goal of AI. Large language models (LLMs) today primarily self-improve via two mechanisms: self-reflection for context updates, and reinforcement learning (RL) for weight updates. In this work, we propose Evolutionary System Prompt Learning (E-SPL), a method for jointly improving model contexts and model weights. In each RL iteration, E-SPL selects multiple system prompts and runs rollouts with each in parallel. It applies RL updates to model weights conditioned on each system prompt, and evolutionary updates to the system prompt population via LLM-driven mutation and crossover. Each system prompt has a TrueSkill rating for evolutionary selection, updated from relative performance within each RL iteration batch. E-SPL encourages a natural division between declarative knowledge encoded in prompts and procedural knowledge encoded in weights, resulting in improved performance across reasoning and agentic tasks. For instance, in an easy-to-hard (AIME $\rightarrow$ BeyondAIME) generalization setting, E-SPL improves RL success rate from 38.8% $\rightarrow$ 45.1% while also outperforming reflective prompt evolution (40.0%). Overall, our results show that coupling reinforcement learning with system prompt evolution yields consistent gains in sample efficiency and generalization. Code: https://github.com/LunjunZhang/E-SPL
- Abstract(参考訳): 経験から自律的に自己改善できるエージェントシステムを構築することは、AIの長年の目標である。
大規模言語モデル(LLM)は、主に、コンテキスト更新のための自己回帰と、重み更新のための強化学習(RL)という2つのメカニズムによって自己改善されている。
本研究では,モデルコンテキストとモデル重みを協調的に改善する手法である進化的システムプロンプト学習(E-SPL)を提案する。
各RLイテレーションでは、E-SPLは複数のシステムプロンプトを選択し、並列にロールアウトを実行する。
RLの更新は、各システムプロンプトで条件付けられたモデルウェイトに適用される。
各システムプロンプトは、進化的選択のためのTrueSkill評価を持ち、各RLイテレーションバッチ内の相対的なパフォーマンスから更新される。
E-SPLは、プロンプトにエンコードされた宣言的知識と重みにエンコードされた手続き的知識とを自然に分割することを奨励し、推論とエージェント的タスクにまたがるパフォーマンスを向上させる。
例えば、簡単な (AIME $\rightarrow$ BeyondAIME) 一般化設定では、E-SPL は RL の成功率を 38.8% $\rightarrow$ 45.1% から改善し、反射的即興進化 (40.0%) を上回っている。
以上の結果から,システム進化の促進と強化学習の結合は,サンプル効率と一般化において一貫した利益をもたらすことが示された。
コード:https://github.com/LunjunZhang/E-SPL
関連論文リスト
- RLAnything: Forge Environment, Policy, and Reward Model in Completely Dynamic RL System [52.3348044324205]
クローズドループ最適化により環境・ポリシー・報酬モデルを構築する強化学習フレームワークであるRLAnythingを提案する。
具体的には、ポリシーはステップワイドおよび結果信号からの総合的なフィードバックで訓練される。
理論を動機とした自動環境適応は、報酬モデルと政策モデルの両方のトレーニングを改善する。
論文 参考訳(メタデータ) (2026-02-02T18:59:04Z) - Reinforcement Learning Fine-Tuning Enhances Activation Intensity and Diversity in the Internal Circuitry of LLMs [13.036236161537147]
大規模言語モデル(LLM)は、大規模な事前学習を通じて広範囲の事前知識を取得し、教師付き微調整(SFT)や強化学習(RL)ベースの後訓練によってさらに強化することができる。
RL微細調整は、SFT単独で達成した以上のLLMの能力を向上することを示す証拠が増えている。
しかし、RL微調整が固有の特性の異なる様々なLLMの能力を高めるメカニズムは未解明のままである。
論文 参考訳(メタデータ) (2025-09-25T11:51:05Z) - Omni-Thinker: Scaling Multi-Task RL in LLMs with Hybrid Reward and Task Scheduling [66.0871543682453]
我々はOmni-Thinkerについて紹介する。Omni-Thinkerは多種多様なタスクにわたって大きな言語モデルをスケールする統合強化学習フレームワークである。
我々のスケジューラは,BWTに基づいてタスクを順序付けし,マルチタスク性能を向上する。
論文 参考訳(メタデータ) (2025-07-20T01:50:16Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Prompt-Tuned LLM-Augmented DRL for Dynamic O-RAN Network Slicing [5.62872273155603]
大規模言語モデル(LLM)は、無秩序なネットワークフィードバックを意味のある潜在表現に構造化する。
O-RANスライシングでは、SNR、パワーレベル、スループットといった概念が意味的に関連している。
学習可能なプロンプトをLLM拡張DRLフレームワークに統合した文脈化に基づく適応手法を提案する。
論文 参考訳(メタデータ) (2025-05-31T14:12:56Z) - AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning [23.24949857136035]
強化学習(RL)は、大規模言語モデル(LLM)の訓練において支配的なパラダイムとなっている。
本稿では,完全非同期RLシステムであるAReaLについて述べる。
論文 参考訳(メタデータ) (2025-05-30T07:18:25Z) - SeRL: Self-Play Reinforcement Learning for Large Language Models with Limited Data [65.56911325914582]
限られた初期データを用いたLarge Language Models (LLM) トレーニングのブートストラップとして,SeRL(Se-play Reinforcement Learning)を提案する。
提案したSeRLは、その結果よりも優れ、検証可能な報酬を持つ高品質なデータと同等の性能が得られる。
論文 参考訳(メタデータ) (2025-05-25T13:28:04Z) - Bridging Supervised Learning and Reinforcement Learning in Math Reasoning [55.889740979706815]
強化学習(Reinforcement Learning, RL)は、二分検証信号による自己改善を可能にすることで、近年の数学能力の急上昇において中心的な役割を担っている。
本研究は,LLMが障害を反映し,外部教師なしで自律的に改善できる教師型アプローチである負認識ファインチューニング(NFT)を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:17:40Z) - On the Emergence of Thinking in LLMs I: Searching for the Right Intuition [34.32871896067864]
自己学習による強化学習(RLSP)というポストトレーニングフレームワークを提案する。
RLSPは、推論プロセスの人間または合成的なデモンストレーションによる微調整、多種多様な効率的な推論行動を促進するための探索報酬信号の使用、報酬ハッキングを予防しながら正当性を確保するための結果検証器によるRLトレーニングの3段階を含む。
数学領域における実証的研究は、RLSPが推論を改善することを示している。
論文 参考訳(メタデータ) (2025-02-10T18:52:04Z) - Scalable Reinforcement Post-Training Beyond Static Human Prompts: Evolving Alignment via Asymmetric Self-Play [52.3079697845254]
evaは、オフラインとオンラインのRLポストトレーニングの両方で、言語モデルがトレーニングプロンプトを適応的に作成できるようにする最初の方法である。
我々は,エバが有効なRLキュリキュラを作成でき,アブレーションにまたがって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-10-31T08:15:32Z) - Rewarding What Matters: Step-by-Step Reinforcement Learning for Task-Oriented Dialogue [17.47550065558479]
強化学習(RL)はタスク指向対話(TOD)システムを強化するための強力なアプローチである。
既存のRL手法は主に生成タスクに焦点を合わせ、理解のために対話状態追跡(DST)を無視する傾向にある。
トークン生成全体でステップバイステップの報酬を導入し、RLを理解タスクと生成タスクの両方に拡張する。
論文 参考訳(メタデータ) (2024-06-20T16:15:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。