Fugu-MT 論文翻訳(概要): Evolutionary System Prompt Learning for Reinforcement Learning in LLMs

論文の概要: Evolutionary System Prompt Learning for Reinforcement Learning in LLMs

arxiv url: http://arxiv.org/abs/2602.14697v3
Date: Wed, 25 Feb 2026 03:50:21 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-26 13:37:25.375092
Title: Evolutionary System Prompt Learning for Reinforcement Learning in LLMs
Title（参考訳）: LLMにおける強化学習のための進化的システムプロンプト学習
Authors: Lunjun Zhang, Ryan Chen, Bradly C. Stadie,
Abstract要約: 大規模言語モデル(LLM)は、主に、コンテキスト更新のための自己回帰と、重み更新のための強化学習の2つのメカニズムを通じて自己改善されている。本稿では,モデルコンテキストとモデル重みを協調的に改善する手法である進化的システムプロンプト学習(E-SPL)を提案する。
参考スコア（独自算出の注目度）: 3.917120254079574
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Building agentic systems that can autonomously self-improve from experience is a longstanding goal of AI. Large language models (LLMs) today primarily self-improve via two mechanisms: self-reflection for context updates, and reinforcement learning (RL) for weight updates. In this work, we propose Evolutionary System Prompt Learning (E-SPL), a method for jointly improving model contexts and model weights. In each RL iteration, E-SPL samples trajectories under multiple system prompts in parallel, then jointly applies RL updates to LLM weights and evolutionary updates to system prompts. System prompts evolve via mutation and crossover, two genetic operators driven by LLM self-reflection; selection is based on relative performance ratings updated across RL iterations. E-SPL encourages a natural division between declarative knowledge encoded in prompts and procedural knowledge encoded in weights, resulting in improved performance across reasoning and agentic tasks. For instance, in an easy-to-hard (AIME $\rightarrow$ BeyondAIME) generalization setting, E-SPL improves RL success rate from 38.8% $\rightarrow$ 45.1% while also outperforming reflective prompt evolution (40.0%). Overall, our results demonstrate that RL and system prompt evolution are deeply synergistic, and combining the two yields consistent gains in sample efficiency and generalization. Code: https://github.com/LunjunZhang/E-SPL
Abstract（参考訳）: 経験から自律的に自己改善できるエージェントシステムを構築することは、AIの長年の目標である。大規模言語モデル(LLM)は、主に、コンテキスト更新のための自己回帰と、重み更新のための強化学習(RL)という2つのメカニズムによって自己改善されている。本研究では,モデルコンテキストとモデル重みを協調的に改善する手法である進化的システムプロンプト学習(E-SPL)を提案する。各RLイテレーションでは、複数のシステムプロンプトの下でE-SPLサンプルの軌跡を並列に分析し、LLM重みへのRL更新とシステムプロンプトへの進化的更新を共同で適用する。システムは突然変異と交叉によって進化し、LLM自己回帰によって駆動される2つの遺伝オペレーターが進化する。 E-SPLは、プロンプトにエンコードされた宣言的知識と重みにエンコードされた手続き的知識の自然な分割を奨励し、推論とエージェント的タスクをまたいだパフォーマンスを向上させる。例えば、簡単な (AIME $\rightarrow$ BeyondAIME) 一般化設定では、E-SPL は RL の成功率を 38.8% $\rightarrow$ 45.1% から改善し、反射的な即興進化 (40.0%) も上回っている。全体として,RLとシステムプロンプトの進化は相乗的であり,この2つの収率の組み合わせは,試料効率と一般化において一貫した利得を示す。コード:https://github.com/LunjunZhang/E-SPL

関連論文リスト

RLAnything: Forge Environment, Policy, and Reward Model in Completely Dynamic RL System [52.3348044324205]
クローズドループ最適化により環境・ポリシー・報酬モデルを構築する強化学習フレームワークであるRLAnythingを提案する。具体的には、ポリシーはステップワイドおよび結果信号からの総合的なフィードバックで訓練される。理論を動機とした自動環境適応は、報酬モデルと政策モデルの両方のトレーニングを改善する。
論文参考訳（メタデータ） (2026-02-02T18:59:04Z)
Reinforcement Learning Fine-Tuning Enhances Activation Intensity and Diversity in the Internal Circuitry of LLMs [13.036236161537147]
大規模言語モデル(LLM)は、大規模な事前学習を通じて広範囲の事前知識を取得し、教師付き微調整(SFT)や強化学習(RL)ベースの後訓練によってさらに強化することができる。 RL微細調整は、SFT単独で達成した以上のLLMの能力を向上することを示す証拠が増えている。しかし、RL微調整が固有の特性の異なる様々なLLMの能力を高めるメカニズムは未解明のままである。
論文参考訳（メタデータ） (2025-09-25T11:51:05Z)
Omni-Thinker: Scaling Multi-Task RL in LLMs with Hybrid Reward and Task Scheduling [66.0871543682453]
我々はOmni-Thinkerについて紹介する。Omni-Thinkerは多種多様なタスクにわたって大きな言語モデルをスケールする統合強化学習フレームワークである。我々のスケジューラは,BWTに基づいてタスクを順序付けし,マルチタスク性能を向上する。
論文参考訳（メタデータ） (2025-07-20T01:50:16Z)
Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。 SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文参考訳（メタデータ） (2025-06-05T07:53:59Z)
Prompt-Tuned LLM-Augmented DRL for Dynamic O-RAN Network Slicing [5.62872273155603]
大規模言語モデル(LLM)は、無秩序なネットワークフィードバックを意味のある潜在表現に構造化する。 O-RANスライシングでは、SNR、パワーレベル、スループットといった概念が意味的に関連している。学習可能なプロンプトをLLM拡張DRLフレームワークに統合した文脈化に基づく適応手法を提案する。
論文参考訳（メタデータ） (2025-05-31T14:12:56Z)
AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning [23.24949857136035]
強化学習(RL)は、大規模言語モデル(LLM)の訓練において支配的なパラダイムとなっている。本稿では,完全非同期RLシステムであるAReaLについて述べる。
論文参考訳（メタデータ） (2025-05-30T07:18:25Z)
SeRL: Self-Play Reinforcement Learning for Large Language Models with Limited Data [65.56911325914582]
限られた初期データを用いたLarge Language Models (LLM) トレーニングのブートストラップとして,SeRL(Se-play Reinforcement Learning)を提案する。提案したSeRLは、その結果よりも優れ、検証可能な報酬を持つ高品質なデータと同等の性能が得られる。
論文参考訳（メタデータ） (2025-05-25T13:28:04Z)
Bridging Supervised Learning and Reinforcement Learning in Math Reasoning [55.889740979706815]
強化学習(Reinforcement Learning, RL)は、二分検証信号による自己改善を可能にすることで、近年の数学能力の急上昇において中心的な役割を担っている。本研究は,LLMが障害を反映し,外部教師なしで自律的に改善できる教師型アプローチである負認識ファインチューニング(NFT)を提案する。
論文参考訳（メタデータ） (2025-05-23T17:17:40Z)
On the Emergence of Thinking in LLMs I: Searching for the Right Intuition [34.32871896067864]
自己学習による強化学習(RLSP)というポストトレーニングフレームワークを提案する。 RLSPは、推論プロセスの人間または合成的なデモンストレーションによる微調整、多種多様な効率的な推論行動を促進するための探索報酬信号の使用、報酬ハッキングを予防しながら正当性を確保するための結果検証器によるRLトレーニングの3段階を含む。数学領域における実証的研究は、RLSPが推論を改善することを示している。
論文参考訳（メタデータ） (2025-02-10T18:52:04Z)
Scalable Reinforcement Post-Training Beyond Static Human Prompts: Evolving Alignment via Asymmetric Self-Play [52.3079697845254]
evaは、オフラインとオンラインのRLポストトレーニングの両方で、言語モデルがトレーニングプロンプトを適応的に作成できるようにする最初の方法である。我々は,エバが有効なRLキュリキュラを作成でき,アブレーションにまたがって堅牢であることを示す。
論文参考訳（メタデータ） (2024-10-31T08:15:32Z)
Rewarding What Matters: Step-by-Step Reinforcement Learning for Task-Oriented Dialogue [17.47550065558479]
強化学習(RL)はタスク指向対話(TOD)システムを強化するための強力なアプローチである。既存のRL手法は主に生成タスクに焦点を合わせ、理解のために対話状態追跡(DST)を無視する傾向にある。トークン生成全体でステップバイステップの報酬を導入し、RLを理解タスクと生成タスクの両方に拡張する。
論文参考訳（メタデータ） (2024-06-20T16:15:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。