Fugu-MT 論文翻訳(概要): SePO: Self-Evolving Prompt Agent for System Prompt Optimization

論文の概要: SePO: Self-Evolving Prompt Agent for System Prompt Optimization

arxiv url: http://arxiv.org/abs/2606.04465v1
Date: Wed, 03 Jun 2026 05:20:30 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-04 20:44:18.564394
Title: SePO: Self-Evolving Prompt Agent for System Prompt Optimization
Title（参考訳）: SePO: システムプロンプト最適化のための自己進化型プロンプトエージェント
Authors: Wangcheng Tao, Han Wu, Weng-Fai Wong,
Abstract要約: システムプロンプト最適化は、基礎となるモデルを変更することなくエージェントの動作を改善する。本稿では,タスクエージェントのシステムプロンプトと並行して,プロンプトエージェント自身のシステムプロンプトを最適化ターゲットとして扱う自己進化型プロンプト最適化(SePO)を提案する。 SePO は Manual-CoT, TextGrad, MetaSPO を一貫して上回り、 Manual-CoT と比較して平均精度は 4.49 ポイント向上している。
参考スコア（独自算出の注目度）: 9.6902824113151
License: http://creativecommons.org/licenses/by/4.0/
Abstract: System prompt optimization improves agent behavior without modifying the underlying model, yielding human-readable, model-agnostic instructions. Existing methods build a prompt agent that refines task agents' system prompts, yet leave the prompt agent's own system prompt hand-engineered and fixed. We propose Self-Evolving Prompt Optimization (SePO), which treats the prompt agent's own system prompt as an optimization target alongside task agents' system prompts. SePO adopts a self-referential design. A single prompt agent improves both task agents' system prompts and its own under an open-ended evolutionary search that maintains an archive of candidate prompts as stepping stones. Training proceeds in two stages: pre-training evolves the prompt agent on a multi-task pool, and fine-tuning then applies it to a target task. Across five benchmarks spanning math (AIME'25), abstract reasoning (ARC-AGI-1), graduate-level science (GPQA), code generation (MBPP), and logic puzzles (Sudoku), SePO consistently outperforms Manual-CoT, TextGrad, and MetaSPO, improving the average accuracy by 4.49 points compared to Manual-CoT. The prompt optimization skill from pre-training also generalizes to tasks beyond the pre-training mixture, rather than memorizing per-task prompts.
Abstract（参考訳）: システムプロンプト最適化は、基礎となるモデルを変更することなくエージェントの動作を改善する。既存のメソッドは、タスクエージェントのシステムプロンプトを洗練させるプロンプトエージェントを構築するが、プロンプトエージェント自身のシステムが手動で手動操作され、固定される。本稿では,タスクエージェントのシステムプロンプトと並行して,プロンプトエージェント自身のシステムプロンプトを最適化ターゲットとして扱うセルフ進化型プロンプト最適化(SePO)を提案する。 SePOは自己参照型設計を採用している。単一のプロンプトエージェントは、候補プロンプトのアーカイブをステップストーンとして維持するオープンな進化探索の下で、タスクエージェントのシステムプロンプトとそれ自身のプロンプトを改善する。事前訓練はマルチタスクプールのプロンプトエージェントを進化させ、微調整を目標タスクに適用する。数学(AIME'25)、抽象推論(ARC-AGI-1)、卒業レベルの科学(GPQA)、コード生成(MBPP)、論理パズル(Sudoku)の5つのベンチマークで、SePOはマニュアルCoT、テキストGrad、メタSPOを一貫して上回り、マニュアルCoTと比較して平均精度は4.49ポイント向上した。事前学習からの迅速な最適化スキルは、タスク毎のプロンプトを記憶するのではなく、事前学習の混合を超えたタスクに一般化する。

論文の概要: SePO: Self-Evolving Prompt Agent for System Prompt Optimization

関連論文リスト