Fugu-MT 論文翻訳(概要): GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning

論文の概要: GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning

arxiv url: http://arxiv.org/abs/2507.19457v1
Date: Fri, 25 Jul 2025 17:42:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-28 16:16:49.053803
Title: GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning
Title（参考訳）: GEPA: 反射型プロンプト進化は強化学習を上回る
Authors: Lakshya A Agrawal, Shangyin Tan, Dilara Soylu, Noah Ziems, Rishi Khare, Krista Opsahl-Ong, Arnav Singhvi, Herumb Shandilya, Michael J Ryan, Meng Jiang, Christopher Potts, Koushik Sen, Alexandros G. Dimakis, Ion Stoica, Dan Klein, Matei Zaharia, Omar Khattab,
Abstract要約: GEPA(Genetic-Pareto)は、自然言語を徹底的に組み込んで、試行錯誤から高度なルールを学ぶプロンプトである。 GEPAはシステムレベルの軌跡(推論、ツールコール、ツールアウトプットなど)をサンプリングし、自然言語でそれらを反映して問題を診断する。ほんの数回だけロールアウトしても、大きな品質向上に繋がることが多い。
参考スコア（独自算出の注目度）: 106.98018881499362
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) are increasingly adapted to downstream tasks via reinforcement learning (RL) methods like Group Relative Policy Optimization (GRPO), which often require thousands of rollouts to learn new tasks. We argue that the interpretable nature of language can often provide a much richer learning medium for LLMs, compared with policy gradients derived from sparse, scalar rewards. To test this, we introduce GEPA (Genetic-Pareto), a prompt optimizer that thoroughly incorporates natural language reflection to learn high-level rules from trial and error. Given any AI system containing one or more LLM prompts, GEPA samples system-level trajectories (e.g., reasoning, tool calls, and tool outputs) and reflects on them in natural language to diagnose problems, propose and test prompt updates, and combine complementary lessons from the Pareto frontier of its own attempts. As a result of GEPA's design, it can often turn even just a few rollouts into a large quality gain. Across four tasks, GEPA outperforms GRPO by 10% on average and by up to 20%, while using up to 35x fewer rollouts. GEPA also outperforms the leading prompt optimizer, MIPROv2, by over 10% across two LLMs, and demonstrates promising results as an inference-time search strategy for code optimization.
Abstract（参考訳）: 大規模な言語モデル(LLM)は、新しいタスクを学ぶために数千のロールアウトを必要とするグループ相対ポリシー最適化(GRPO)のような強化学習(RL)メソッドを通じて、下流タスクに適応する傾向にある。言語の性質は、スパース、スカラーの報酬から導かれる政策勾配と比較して、LLMにとってより豊かな学習媒体を提供することができると我々は論じる。これをテストするために,自然言語のリフレクションを徹底的に取り入れ,試行錯誤から高レベルのルールを学習するプロンプトオプティマイザであるGEPA(Genetic-Pareto)を導入する。 1つ以上のLSMプロンプトを含む任意のAIシステムが与えられた場合、GEPAはシステムレベルの軌道(例えば、推論、ツールコール、ツールアウトプット)をサンプリングし、自然言語でそれらを反映して問題を診断し、プロンプト更新を提案し、テストし、独自の試みのパレートフロンティアからの補完的な教訓を組み合わせる。 GEPAの設計の結果、ほんの数回だけロールアウトしても大きな品質向上をもたらすことがしばしばある。 4つのタスクにまたがって、GEPAはGRPOを平均10%、最大20%、ロールアウトを最大35倍に向上させる。 GEPAはまた、主要なプロンプトオプティマイザであるMIPROv2を2つのLLMで10%以上上回り、コード最適化のための推論時検索戦略として有望な結果を示している。

関連論文リスト

Multi-module GRPO: Composing Policy Gradients and Prompt Optimization for Language Model Programs [77.22973302887435]
グループ相対政策最適化(GRPO)は、後学習言語モデル(LM)に有効なツールであることが証明されている。 GRPOの単純なマルチモジュールであるmmGRPOを提案する。自動的なプロンプト最適化によって構成されたmGRPOは,分類,多項目検索,プライバシー保護デリゲートタスクなどを通じて,平均11%の精度向上を実現している。
論文参考訳（メタデータ） (2025-08-06T17:28:31Z)
GReaTer: Gradients over Reasoning Makes Smaller Language Models Strong Prompt Optimizers [52.17222304851524]
本稿では,タスク固有の推論よりも勾配情報を直接組み込む新しいプロンプト最適化手法であるGReaTerを紹介する。 GReaTerはタスク損失勾配を利用して、オープンソースの軽量言語モデルのためのプロンプトの自己最適化を可能にする。 GReaTerは、従来の最先端のプロンプト最適化手法を一貫して上回っている。
論文参考訳（メタデータ） (2024-12-12T20:59:43Z)
GRL-Prompt: Towards Knowledge Graph based Prompt Optimization via Reinforcement Learning [8.307785339429863]
大規模言語モデル(LLM)の迅速な最適化のための新しいフレームワークを提案する。 GRL-Promptは、強化学習(RL)を通じて、エンドツーエンドで最適なプロンプトを自動構築することを目的としている。 GRL-Promptは最近の最先端手法よりも優れていた。
論文参考訳（メタデータ） (2024-11-19T10:52:25Z)
Improving the Language Understanding Capabilities of Large Language Models Using Reinforcement Learning [20.13007387453759]
Proximal Policy Optimization (PPO)は、大規模言語モデル(LLM)の機能を改善するためのフレームワークである。 PPOは監督された微調整よりも一貫して優れており、GLUEでは平均6.3ポイント向上している。本研究は,LLMを強化学習問題とみなすことで,新たなタスクに適応する上で有望な方向性を示すものである。
論文参考訳（メタデータ） (2024-10-14T19:16:56Z)
GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。 GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文参考訳（メタデータ） (2024-10-11T03:05:06Z)
Large Language Models as Code Executors: An Exploratory Study [29.545321608864295]
本稿では,Large Language Models (LLM) をコードエグゼキュータとして探索する。 OpenAIのo1、GPT-4o、GPT-3.5、DeepSeek、Qwen-Coderなど、さまざまなLLMでこの実現可能性を調べています。我々は,コードスニペットを行単位で処理し,弱いモデルの精度を平均7.22%向上させるIIP(Iterative Instruction Prompting)技術を導入する。
論文参考訳（メタデータ） (2024-10-09T08:23:22Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
Prompt Perturbation in Retrieval-Augmented Generation based Large Language Models [9.688626139309013]
Retrieval-Augmented Generationは、大規模言語モデルからテキスト生成の信頼性を向上させる手段として考えられている。本研究では,プロンプトに短い接頭辞を挿入しても,実際の正解から遠く離れたアウトプットを生成することを発見した。グラディエントガイドプロンプト摂動法(Gradient Guided Prompt Perturbation)と呼ばれる新しい最適化手法を提案する。
論文参考訳（メタデータ） (2024-02-11T12:25:41Z)
EvoPrompt: Connecting LLMs with Evolutionary Algorithms Yields Powerful Prompt Optimizers [67.64162164254809]
EvoPromptは離散的なプロンプト最適化のためのフレームワークである。進化的アルゴリズム(EA)の概念は、優れた性能と高速収束を示すものである。人為的なプロンプトと既存の方法で自動プロンプト生成を著しく上回っている。
論文参考訳（メタデータ） (2023-09-15T16:50:09Z)
Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。 LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文参考訳（メタデータ） (2023-02-22T17:44:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。