論文の概要: GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.19457v1
- Date: Fri, 25 Jul 2025 17:42:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:49.053803
- Title: GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning
- Title(参考訳): GEPA: 反射型プロンプト進化は強化学習を上回る
- Authors: Lakshya A Agrawal, Shangyin Tan, Dilara Soylu, Noah Ziems, Rishi Khare, Krista Opsahl-Ong, Arnav Singhvi, Herumb Shandilya, Michael J Ryan, Meng Jiang, Christopher Potts, Koushik Sen, Alexandros G. Dimakis, Ion Stoica, Dan Klein, Matei Zaharia, Omar Khattab,
- Abstract要約: GEPA(Genetic-Pareto)は、自然言語を徹底的に組み込んで、試行錯誤から高度なルールを学ぶプロンプトである。
GEPAはシステムレベルの軌跡(推論、ツールコール、ツールアウトプットなど)をサンプリングし、自然言語でそれらを反映して問題を診断する。
ほんの数回だけロールアウトしても、大きな品質向上に繋がることが多い。
- 参考スコア(独自算出の注目度): 106.98018881499362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly adapted to downstream tasks via reinforcement learning (RL) methods like Group Relative Policy Optimization (GRPO), which often require thousands of rollouts to learn new tasks. We argue that the interpretable nature of language can often provide a much richer learning medium for LLMs, compared with policy gradients derived from sparse, scalar rewards. To test this, we introduce GEPA (Genetic-Pareto), a prompt optimizer that thoroughly incorporates natural language reflection to learn high-level rules from trial and error. Given any AI system containing one or more LLM prompts, GEPA samples system-level trajectories (e.g., reasoning, tool calls, and tool outputs) and reflects on them in natural language to diagnose problems, propose and test prompt updates, and combine complementary lessons from the Pareto frontier of its own attempts. As a result of GEPA's design, it can often turn even just a few rollouts into a large quality gain. Across four tasks, GEPA outperforms GRPO by 10% on average and by up to 20%, while using up to 35x fewer rollouts. GEPA also outperforms the leading prompt optimizer, MIPROv2, by over 10% across two LLMs, and demonstrates promising results as an inference-time search strategy for code optimization.
- Abstract(参考訳): 大規模な言語モデル(LLM)は、新しいタスクを学ぶために数千のロールアウトを必要とするグループ相対ポリシー最適化(GRPO)のような強化学習(RL)メソッドを通じて、下流タスクに適応する傾向にある。
言語の性質は、スパース、スカラーの報酬から導かれる政策勾配と比較して、LLMにとってより豊かな学習媒体を提供することができると我々は論じる。
これをテストするために,自然言語のリフレクションを徹底的に取り入れ,試行錯誤から高レベルのルールを学習するプロンプトオプティマイザであるGEPA(Genetic-Pareto)を導入する。
1つ以上のLSMプロンプトを含む任意のAIシステムが与えられた場合、GEPAはシステムレベルの軌道(例えば、推論、ツールコール、ツールアウトプット)をサンプリングし、自然言語でそれらを反映して問題を診断し、プロンプト更新を提案し、テストし、独自の試みのパレートフロンティアからの補完的な教訓を組み合わせる。
GEPAの設計の結果、ほんの数回だけロールアウトしても大きな品質向上をもたらすことがしばしばある。
4つのタスクにまたがって、GEPAはGRPOを平均10%、最大20%、ロールアウトを最大35倍に向上させる。
GEPAはまた、主要なプロンプトオプティマイザであるMIPROv2を2つのLLMで10%以上上回り、コード最適化のための推論時検索戦略として有望な結果を示している。
関連論文リスト
- GReaTer: Gradients over Reasoning Makes Smaller Language Models Strong Prompt Optimizers [52.17222304851524]
本稿では,タスク固有の推論よりも勾配情報を直接組み込む新しいプロンプト最適化手法であるGReaTerを紹介する。
GReaTerはタスク損失勾配を利用して、オープンソースの軽量言語モデルのためのプロンプトの自己最適化を可能にする。
GReaTerは、従来の最先端のプロンプト最適化手法を一貫して上回っている。
論文 参考訳(メタデータ) (2024-12-12T20:59:43Z) - GRL-Prompt: Towards Knowledge Graph based Prompt Optimization via Reinforcement Learning [8.307785339429863]
大規模言語モデル(LLM)の迅速な最適化のための新しいフレームワークを提案する。
GRL-Promptは、強化学習(RL)を通じて、エンドツーエンドで最適なプロンプトを自動構築することを目的としている。
GRL-Promptは最近の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-11-19T10:52:25Z) - Improving the Language Understanding Capabilities of Large Language Models Using Reinforcement Learning [20.13007387453759]
Proximal Policy Optimization (PPO)は、大規模言語モデル(LLM)の機能を改善するためのフレームワークである。
PPOは監督された微調整よりも一貫して優れており、GLUEでは平均6.3ポイント向上している。
本研究は,LLMを強化学習問題とみなすことで,新たなタスクに適応する上で有望な方向性を示すものである。
論文 参考訳(メタデータ) (2024-10-14T19:16:56Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Prompt Perturbation in Retrieval-Augmented Generation based Large Language Models [9.688626139309013]
Retrieval-Augmented Generationは、大規模言語モデルからテキスト生成の信頼性を向上させる手段として考えられている。
本研究では,プロンプトに短い接頭辞を挿入しても,実際の正解から遠く離れたアウトプットを生成することを発見した。
グラディエントガイドプロンプト摂動法(Gradient Guided Prompt Perturbation)と呼ばれる新しい最適化手法を提案する。
論文 参考訳(メタデータ) (2024-02-11T12:25:41Z) - EvoPrompt: Connecting LLMs with Evolutionary Algorithms Yields Powerful Prompt Optimizers [67.64162164254809]
EvoPromptは離散的なプロンプト最適化のためのフレームワークである。
進化的アルゴリズム(EA)の概念は、優れた性能と高速収束を示すものである。
人為的なプロンプトと既存の方法で自動プロンプト生成を著しく上回っている。
論文 参考訳(メタデータ) (2023-09-15T16:50:09Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。