論文の概要: Automatic Prompt Optimization with "Gradient Descent" and Beam Search
- arxiv url: http://arxiv.org/abs/2305.03495v2
- Date: Thu, 19 Oct 2023 04:37:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 20:31:32.575615
- Title: Automatic Prompt Optimization with "Gradient Descent" and Beam Search
- Title(参考訳): 勾配輝き」とビームサーチによる自動プロンプト最適化
- Authors: Reid Pryzant, Dan Iter, Jerry Li, Yin Tat Lee, Chenguang Zhu, Michael
Zeng
- Abstract要約: 大きな言語モデル(LLM)は汎用エージェントとして優れたパフォーマンスを示しているが、その能力はプロンプトに大きく依存している。
この問題に対する単純で非パラメトリックな解である自動プロンプト最適化(APO)を提案する。
APOはデータのミニバッチを使用して、現在のプロンプトを批判する自然言語「段階的」を形成する。
次に、勾配の反対の意味方向のプロンプトを編集することで、勾配をプロンプトに「伝播」する。
- 参考スコア(独自算出の注目度): 64.08364384823645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown impressive performance as general
purpose agents, but their abilities remain highly dependent on prompts which
are hand written with onerous trial-and-error effort. We propose a simple and
nonparametric solution to this problem, Automatic Prompt Optimization (APO),
which is inspired by numerical gradient descent to automatically improve
prompts, assuming access to training data and an LLM API. The algorithm uses
minibatches of data to form natural language "gradients" that criticize the
current prompt. The gradients are then "propagated" into the prompt by editing
the prompt in the opposite semantic direction of the gradient. These gradient
descent steps are guided by a beam search and bandit selection procedure which
significantly improves algorithmic efficiency. Preliminary results across three
benchmark NLP tasks and the novel problem of LLM jailbreak detection suggest
that Automatic Prompt Optimization can outperform prior prompt editing
techniques and improve an initial prompt's performance by up to 31%, by using
data to rewrite vague task descriptions into more precise annotation
instructions.
- Abstract(参考訳): LLM(Large Language Models)は汎用エージェントとして優れたパフォーマンスを示しているが、その能力は、面倒な試行錯誤で手書きされたプロンプトに大きく依存している。
本稿では,数値勾配降下に触発されて,プロンプトを自動的に改善し,トレーニングデータとllm apiへのアクセスを前提とした,簡易かつ非パラメトリックな手法である自動プロンプト最適化(apo)を提案する。
このアルゴリズムはデータのミニバッチを使用して、現在のプロンプトを批判する自然言語"gradients"を形成する。
次に、勾配の反対の意味方向のプロンプトを編集することで、勾配をプロンプトに「伝播」する。
これらの勾配降下ステップは、アルゴリズム効率を大幅に向上させるビーム探索およびバンディット選択手順によって導かれる。
3つのベンチマーク NLP タスクの予備結果と LLM ジェイルブレイク検出の新たな問題により、自動プロンプト最適化は、曖昧なタスク記述をより正確なアノテーション命令に書き換えることによって、事前のプロンプト編集技術より優れ、初期プロンプトの性能を最大31%向上させることができることが示唆された。
関連論文リスト
- Intent-based Prompt Calibration: Enhancing prompt optimization with
synthetic boundary cases [2.6159111710501506]
本稿では,ユーザ意図に対するプロンプトを反復的に洗練するキャリブレーションプロセスを用いて,自動プロンプトエンジニアリングの新しい手法を提案する。
我々は,モデレーションや生成といった現実的なタスクにおいて,強力なプロプライエタリなモデルに対して,本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-02-05T15:28:43Z) - PRewrite: Prompt Rewriting with Reinforcement Learning [24.804583127813313]
より効率的なプロンプトに最適化されていないプロンプトを書き換える自動化手法であるPRewriteを提案する。
我々は、PRewriteの有効性を示す様々なベンチマークデータセットの実験を行う。
論文 参考訳(メタデータ) (2024-01-16T08:04:50Z) - AutoHint: Automatic Prompt Optimization with Hint Generation [11.737818328656735]
本稿では,大規模言語モデル(LLM)の自動プロンプトエンジニアリングと最適化のための新しいフレームワークであるAutoHintを提案する。
本稿では,インテキスト学習とゼロショット学習の両方の利点を継承する枠組みを提案する。
エンリッチメントをヒントと呼び、ラベル付きデータからヒントを自動的に生成するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-13T00:49:27Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z) - PromptBoosting: Black-Box Text Classification with Ten Forward Passes [61.38341243907045]
PromptBoostingは、LMのパラメータ、勾配、隠された表現にアクセスすることなく、ニューラルネットワークモデル(LM)からテキスト分類器を構築するためのクエリ効率のよい手順である。
実験によると、PromptBoostingは複数のブラックボックスのいくつかのショット分類タスクで最先端のパフォーマンスを達成し、既存のブラックボックスメソッドよりも10倍速くトレーニングしながら、少数ショットと標準学習のパラダイムの両方で完全な微調整をマッチまたは上回っている。
論文 参考訳(メタデータ) (2022-12-19T06:04:54Z) - MetaPrompting: Learning to Learn Better Prompts [52.914694884515534]
本稿では,メタプロンプトと呼ばれるソフトプロンプト手法を提案する。
大規模な実験は、MetaPromptingが4つの異なるデータセットに大きな改善をもたらすことを示している。
論文 参考訳(メタデータ) (2022-09-23T09:01:05Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z) - GrIPS: Gradient-free, Edit-based Instruction Search for Prompting Large
Language Models [80.03815493269522]
GrIPSは、大規模言語モデルのタスク命令を改善するための、勾配のない編集ベースの検索手法である。
InstructGPTモデルでは、GrIPSは8つの分類タスクの平均タスク性能を最大4.30ポイント改善する。
編集は命令を単純化し、時には不整合化しますが、それでも精度は向上します。
論文 参考訳(メタデータ) (2022-03-14T16:54:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。