論文の概要: $p1$: Better Prompt Optimization with Fewer Prompts
- arxiv url: http://arxiv.org/abs/2604.08801v1
- Date: Thu, 09 Apr 2026 22:31:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.598214
- Title: $p1$: Better Prompt Optimization with Fewer Prompts
- Title(参考訳): p1$: 少ないプロンプトによるプロンプト最適化の改善
- Authors: Zhaolin Gao, Yu, Wang, Bo Liu, Thorsten Joachims, Kianté Brantley, Wen Sun,
- Abstract要約: システムプロンプト間の分散が大きくなるとプロンプト最適化が成功するが,システムプロンプト間の分散がシステムプロンプトの分散を支配するとフェールすることを示す。
本稿では,ユーザプロンプトのサブセットを選択するシンプルなユーザプロンプトフィルタリング手法である$p1$を提案する。
- 参考スコア(独自算出の注目度): 49.20082664169319
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt optimization improves language models without updating their weights by searching for a better system prompt, but its effectiveness varies widely across tasks. We study what makes a task amenable to prompt optimization. We show that the reward variance across different system prompts can be decomposed into two components: variance among responses, which captures generation stochasticity, and variance among system prompts, which captures differences in system prompt quality. Prompt optimization succeeds when variance among system prompts is sufficiently large, but fails when variance among responses dominates the variance of the system prompts. Surprisingly, we further show that scaling to more user prompts can hurt optimization by reducing variance among system prompts, especially on heterogeneous datasets where different user prompts favor different system prompts. Motivated by this insight, we propose $p1$, a simple user prompt filtering method that selects a small subset of user prompts with high variance across candidate system prompts. This subset of user prompts allows one to distinguish a good system prompt from a bad one, making system optimization easier. Experiments on reasoning benchmarks show that $p1$ substantially improves prompt optimization over training on the full dataset and outperforms strong baselines such as GEPA. Notably, training on only two prompts from AIME 24 yields a system prompt that generalizes well to other reasoning benchmarks.
- Abstract(参考訳): プロンプト最適化は、より良いシステムプロンプトを探すことで重みを更新することなく言語モデルを改善するが、その効果はタスクによって大きく異なる。
最適化を急ぐための課題について検討する。
システムプロンプト間の報酬分散は、応答間の分散と、システムプロンプト間の分散と、システムプロンプトの差異をキャプチャする2つのコンポーネントに分解できることを示す。
プロンプト最適化は、システムプロンプト間のばらつきが十分に大きいときに成功するが、応答間のばらつきがシステムプロンプトのばらつきを支配すると失敗する。
さらに,異なるユーザプロンプトが異なるシステムプロンプトを優先する異種データセットにおいて,システムプロンプト間のばらつきを低減することで,より多くのユーザプロンプトへのスケーリングが最適化を損なう可能性があることを示す。
そこで本研究では,ユーザプロンプトのサブセットを選択するシンプルなユーザプロンプトフィルタリング手法である$p1$を提案する。
このユーザープロンプトのサブセットは、良いシステムプロンプトと悪いシステムプロンプトを区別し、システムの最適化を容易にする。
推論ベンチマークの実験によると、$p1$は完全なデータセットのトレーニングよりも高速な最適化を実現し、GEPAのような強力なベースラインを上回っている。
特に、AIME 24からの2つのプロンプトのみのトレーニングでは、他の推論ベンチマークによく適応するシステムプロンプトが得られる。
関連論文リスト
- System Prompt Optimization with Meta-Learning [64.74765550805024]
本稿では,多様なユーザプロンプトに対して堅牢なシステムプロンプトを設計することを目的とした,バイレベルシステムプロンプト最適化の新たな課題を紹介する。
本稿では,複数のデータセットにまたがるさまざまなユーザプロンプトに対して最適化することで,システムプロンプトをメタラーニングするメタラーニングフレームワークを提案する。
5つの異なるドメインにまたがる14の未知のデータセットに対して実験を行い、このアプローチが多様なユーザプロンプトに効果的に一般化するシステムプロンプトを生成することを示す。
論文 参考訳(メタデータ) (2025-05-14T16:46:15Z) - Has My System Prompt Been Used? Large Language Model Prompt Membership Inference [56.20586932251531]
Prompt Detectiveは,システムプロンプトがサードパーティの言語モデルによって使用されているかどうかを確実に判断する統計手法である。
我々の研究は、システムの小さな変更でさえ、異なる応答分布に現れ、統計的に意味のある迅速な使用を検証できることを明らかにした。
論文 参考訳(メタデータ) (2025-02-14T08:00:42Z) - SPRIG: Improving Large Language Model Performance by System Prompt Optimization [45.96513122345295]
大きな言語モデル(LLM)は多くのシナリオで印象的な機能を示しているが、そのパフォーマンスはプロンプトの選択に依存している。
本研究では,モデルの性能を最大化するために,既定成分からのプロンプトを反復的に構築する編集に基づく遺伝的アルゴリズムであるSPRIGを提案する。
47種類のタスクの集合に対して,システムプロンプトの性能を評価し,一般化性を確保する。
論文 参考訳(メタデータ) (2024-10-18T18:51:44Z) - Demystifying Prompts in Language Models via Perplexity Estimation [109.59105230163041]
プロンプトのパフォーマンスは、モデルが含んでいる言語に精通している範囲と結合している。
プロンプトの難易度が低ければ低いほど、プロンプトがタスクを実行することができることを示す。
論文 参考訳(メタデータ) (2022-12-08T02:21:47Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。