論文の概要: PRewrite: Prompt Rewriting with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2401.08189v1
- Date: Tue, 16 Jan 2024 08:04:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 14:50:47.895091
- Title: PRewrite: Prompt Rewriting with Reinforcement Learning
- Title(参考訳): Prewrite: 強化学習によるプロンプト書き換え
- Authors: Weize Kong and Spurthi Amba Hombaiah and Mingyang Zhang and Qiaozhu
Mei and Michael Bendersky
- Abstract要約: 我々は、初期プロンプトを書き換え、非常に効果的な新しいプロンプトを生成する自動化ツールであるPRewriteを提案する。
PRewriteは、エンドツーエンドの最適化を可能にするReinforcement Learningフレームワークに基づいている。
生成されたプロンプトは人間の読みやすいものであり、以前の作品と異なり自己説明的である。
- 参考スコア(独自算出の注目度): 24.804583127813313
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt engineering is critical for the development of LLM-based applications.
However, it is usually done manually in a "trial and error" fashion. This
manual procedure can be time consuming, ineffective, and the generated prompts
are, in a lot of cases, sub-optimal. Even for the prompts which seemingly work
well, there is always a lingering question: can the prompts be made better with
further modifications?
To address these questions, in this paper, we investigate prompt engineering
automation. We consider a specific use case scenario in which developers/users
have drafted initial prompts, but lack the time/expertise to optimize them. We
propose PRewrite, an automated tool to rewrite these drafts and to generate
highly effective new prompts. PRewrite is based on the Reinforcement Learning
(RL) framework which allows for end-to-end optimization and our design allows
the RL search to happen in a large action space. The automated tool leverages
manually crafted prompts as starting points which makes the rewriting procedure
more guided and efficient. The generated prompts are human readable, and
self-explanatory, unlike some of those in previous works. We conducted
extensive experiments on diverse datasets and found that the prompts generated
with this new method not only outperform professionally crafted prompts, but
also prompts generated with other previously proposed methods.
- Abstract(参考訳): プロンプトエンジニアリングはLLMベースのアプリケーションの開発に不可欠である。
しかし、通常は手動で "trial and error" 形式で行われる。
この手動手順は、時間消費、非効率であり、生成されたプロンプトは、多くの場合、副最適化である。
たとえプロンプトがうまく機能しているように見えるとしても、常に疑問が残る。
これらの問題に対処するため,本稿では,迅速なエンジニアリング自動化について検討する。
開発者やユーザが初期プロンプトをドラフトしたものの、最適化する時間や専門知識がない、特定のユースケースシナリオを検討します。
我々はこれらのドラフトを書き換え、非常に効果的な新しいプロンプトを生成する自動化ツールであるPRewriteを提案する。
PRewriteは、エンドツーエンドの最適化を可能にするReinforcement Learning (RL)フレームワークをベースにしています。
自動ツールは、手作業によるプロンプトを出発点として活用し、書き直し手順をより指導的かつ効率的にする。
生成されたプロンプトは人間の読みやすいものであり、以前の作品と異なり自己説明的である。
多様なデータセットについて広範な実験を行い,この手法で生成されたプロンプトがプロのプロのプロンプトを上回るだけでなく,他の提案手法で生成されたプロンプトよりも優れていることを発見した。
関連論文リスト
- Prompt Optimization with Human Feedback [69.95991134172282]
人間のフィードバックによる迅速な最適化問題(POHF)について検討する。
我々は自動POHF(Automatic POHF)というアルゴリズムを導入する。
その結果、APOHFは、少数の好みフィードバックインスタンスを用いて、効率的に適切なプロンプトを見つけることができることがわかった。
論文 参考訳(メタデータ) (2024-05-27T16:49:29Z) - LLM-R2: A Large Language Model Enhanced Rule-based Rewrite System for Boosting Query Efficiency [65.01402723259098]
本稿では,LLM-R2 という新しいクエリ書き換え手法を提案する。
実験結果から,本手法はクエリ実行効率を大幅に向上し,ベースライン法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-04-19T13:17:07Z) - Efficient Prompting Methods for Large Language Models: A Survey [50.171011917404485]
プロンプティングは、特定の自然言語処理タスクに大規模言語モデル(LLM)を適用するための主流パラダイムとなっている。
このアプローチは、LLMの振る舞いをガイドし、制御するために、モデル推論と人間の努力のさらなる計算負担をもたらす。
本稿では, 今後の研究の方向性を明らかにするため, 促進, 効率的な促進のための進歩を概説する。
論文 参考訳(メタデータ) (2024-04-01T12:19:08Z) - Intent-based Prompt Calibration: Enhancing prompt optimization with
synthetic boundary cases [2.6159111710501506]
本稿では,ユーザ意図に対するプロンプトを反復的に洗練するキャリブレーションプロセスを用いて,自動プロンプトエンジニアリングの新しい手法を提案する。
我々は,モデレーションや生成といった現実的なタスクにおいて,強力なプロプライエタリなモデルに対して,本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-02-05T15:28:43Z) - PAP-REC: Personalized Automatic Prompt for Recommendation Language Model [46.07664597084786]
本稿では,ReCommendation言語モデルのためのパーソナライズされた自動プロンプトを生成するフレームワークであるPAP-RECを提案する。
レコメンデーション言語モデルのためのパーソナライズされた自動プロンプト生成の課題の1つは、非常に大きな検索空間である。
我々は、サロゲートメトリクスを開発し、リコメンデーション言語モデルを促すために、代替の更新スケジュールを活用する。
論文 参考訳(メタデータ) (2024-02-01T02:29:16Z) - Evoke: Evoking Critical Thinking Abilities in LLMs via Reviewer-Author
Prompt Editing [19.241543540941283]
大規模言語モデル(LLM)は、自然言語処理において顕著な進歩を遂げた。
本稿では,自動プロンプトリファインメントフレームワークであるEvokeを提案する。
一つはレビュアーとして、もう一つは現在のプロンプトをスコアし、もう一つは著者として、編集履歴とレビュアーのフィードバックを考慮してプロンプトを編集する。
論文 参考訳(メタデータ) (2023-10-20T23:15:59Z) - Prompt Space Optimizing Few-shot Reasoning Success with Large Language Models [7.453926835095568]
プロンプトエンジニアリングにより、算術的推論、質問応答、要約、関係抽出、機械翻訳、感情分析などの様々なタスクにおいて、大きな言語モデル(LLM)が優れている。
現在のアプローチでは、最適なプロンプトを決定するための厳密な数学的解決策が欠如している。
提案手法では,テキスト埋め込みを用いて行列分解による基底ベクトルを取得し,すべてのプロンプトを表す空間を構築する。
論文 参考訳(メタデータ) (2023-06-06T15:43:16Z) - Automatic Prompt Optimization with "Gradient Descent" and Beam Search [64.08364384823645]
大きな言語モデル(LLM)は汎用エージェントとして優れたパフォーマンスを示しているが、その能力はプロンプトに大きく依存している。
この問題に対する単純で非パラメトリックな解である自動プロンプト最適化(APO)を提案する。
APOはデータのミニバッチを使用して、現在のプロンプトを批判する自然言語「段階的」を形成する。
次に、勾配の反対の意味方向のプロンプトを編集することで、勾配をプロンプトに「伝播」する。
論文 参考訳(メタデータ) (2023-05-04T15:15:22Z) - TEMPERA: Test-Time Prompting via Reinforcement Learning [57.48657629588436]
強化学習(TEMPERA)を用いたテスト時間プロンプト編集を提案する。
従来のプロンプト生成手法とは対照的に、TEMPERAは事前知識を効率的に活用することができる。
本手法は従来の微調整法と比較して試料効率の平均改善率を5.33倍に向上させる。
論文 参考訳(メタデータ) (2022-11-21T22:38:20Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。