論文の概要: PRewrite: Prompt Rewriting with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2401.08189v4
- Date: Mon, 10 Jun 2024 13:46:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 04:08:57.630870
- Title: PRewrite: Prompt Rewriting with Reinforcement Learning
- Title(参考訳): Prewrite: 強化学習によるプロンプト書き換え
- Authors: Weize Kong, Spurthi Amba Hombaiah, Mingyang Zhang, Qiaozhu Mei, Michael Bendersky,
- Abstract要約: より効率的なプロンプトに最適化されていないプロンプトを書き換える自動化手法であるPRewriteを提案する。
我々は、PRewriteの有効性を示す様々なベンチマークデータセットの実験を行う。
- 参考スコア(独自算出の注目度): 23.120358549806127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt engineering is critical for the development of LLM-based applications. However, it is usually done manually in a "trial and error" fashion that can be time consuming, ineffective, and sub-optimal. Even for the prompts which seemingly work well, there is always a lingering question: can the prompts be made better with further modifications? To address these problems, we investigate automated prompt engineering in this paper. Specifically, we propose PRewrite, an automated method to rewrite an under-optimized prompt to a more effective prompt. We instantiate the prompt rewriter using a LLM. The rewriter LLM is trained using reinforcement learning to optimize the performance on a given downstream task. We conduct experiments on diverse benchmark datasets, which demonstrates the effectiveness of PRewrite.
- Abstract(参考訳): プロンプトエンジニアリングはLLMベースのアプリケーションの開発に不可欠である。
しかし、通常は手動で「試行錯誤」のやり方で行われ、それは時間を費やし、非効率で、準最適である。
うまく機能しているように見えるプロンプトであっても、常につまらない疑問があります。
これらの問題に対処するために,本稿では,自動プロンプトエンジニアリングについて検討する。
具体的には、最適化されていないプロンプトをより効果的なプロンプトに書き換える自動化手法であるPRewriteを提案する。
LLMを用いてプロンプトリライタをインスタンス化する。
リライターLLMは、所定の下流タスクのパフォーマンスを最適化するために強化学習を用いて訓練される。
我々は、PRewriteの有効性を示す様々なベンチマークデータセットの実験を行う。
関連論文リスト
- Prompt Optimization with Human Feedback [69.95991134172282]
人間のフィードバックによる迅速な最適化問題(POHF)について検討する。
我々は自動POHF(Automatic POHF)というアルゴリズムを導入する。
その結果、APOHFは、少数の好みフィードバックインスタンスを用いて、効率的に適切なプロンプトを見つけることができることがわかった。
論文 参考訳(メタデータ) (2024-05-27T16:49:29Z) - LLM-R2: A Large Language Model Enhanced Rule-based Rewrite System for Boosting Query Efficiency [65.01402723259098]
本稿では,LLM-R2 という新しいクエリ書き換え手法を提案する。
実験結果から,本手法はクエリ実行効率を大幅に向上し,ベースライン法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-04-19T13:17:07Z) - Efficient Prompting Methods for Large Language Models: A Survey [50.171011917404485]
プロンプティングは、特定の自然言語処理タスクに大規模言語モデル(LLM)を適用するための主流パラダイムとなっている。
このアプローチは、LLMの振る舞いをガイドし、制御するために、モデル推論と人間の努力のさらなる計算負担をもたらす。
本稿では, 今後の研究の方向性を明らかにするため, 促進, 効率的な促進のための進歩を概説する。
論文 参考訳(メタデータ) (2024-04-01T12:19:08Z) - Intent-based Prompt Calibration: Enhancing prompt optimization with
synthetic boundary cases [2.6159111710501506]
本稿では,ユーザ意図に対するプロンプトを反復的に洗練するキャリブレーションプロセスを用いて,自動プロンプトエンジニアリングの新しい手法を提案する。
我々は,モデレーションや生成といった現実的なタスクにおいて,強力なプロプライエタリなモデルに対して,本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-02-05T15:28:43Z) - PAP-REC: Personalized Automatic Prompt for Recommendation Language Model [46.07664597084786]
本稿では,ReCommendation言語モデルのためのパーソナライズされた自動プロンプトを生成するフレームワークであるPAP-RECを提案する。
レコメンデーション言語モデルのためのパーソナライズされた自動プロンプト生成の課題の1つは、非常に大きな検索空間である。
我々は、サロゲートメトリクスを開発し、リコメンデーション言語モデルを促すために、代替の更新スケジュールを活用する。
論文 参考訳(メタデータ) (2024-02-01T02:29:16Z) - Evoke: Evoking Critical Thinking Abilities in LLMs via Reviewer-Author
Prompt Editing [19.241543540941283]
大規模言語モデル(LLM)は、自然言語処理において顕著な進歩を遂げた。
本稿では,自動プロンプトリファインメントフレームワークであるEvokeを提案する。
一つはレビュアーとして、もう一つは現在のプロンプトをスコアし、もう一つは著者として、編集履歴とレビュアーのフィードバックを考慮してプロンプトを編集する。
論文 参考訳(メタデータ) (2023-10-20T23:15:59Z) - Prompt Space Optimizing Few-shot Reasoning Success with Large Language Models [7.453926835095568]
プロンプトエンジニアリングにより、算術的推論、質問応答、要約、関係抽出、機械翻訳、感情分析などの様々なタスクにおいて、大きな言語モデル(LLM)が優れている。
現在のアプローチでは、最適なプロンプトを決定するための厳密な数学的解決策が欠如している。
提案手法では,テキスト埋め込みを用いて行列分解による基底ベクトルを取得し,すべてのプロンプトを表す空間を構築する。
論文 参考訳(メタデータ) (2023-06-06T15:43:16Z) - Automatic Prompt Optimization with "Gradient Descent" and Beam Search [64.08364384823645]
大きな言語モデル(LLM)は汎用エージェントとして優れたパフォーマンスを示しているが、その能力はプロンプトに大きく依存している。
この問題に対する単純で非パラメトリックな解である自動プロンプト最適化(APO)を提案する。
APOはデータのミニバッチを使用して、現在のプロンプトを批判する自然言語「段階的」を形成する。
次に、勾配の反対の意味方向のプロンプトを編集することで、勾配をプロンプトに「伝播」する。
論文 参考訳(メタデータ) (2023-05-04T15:15:22Z) - TEMPERA: Test-Time Prompting via Reinforcement Learning [57.48657629588436]
強化学習(TEMPERA)を用いたテスト時間プロンプト編集を提案する。
従来のプロンプト生成手法とは対照的に、TEMPERAは事前知識を効率的に活用することができる。
本手法は従来の微調整法と比較して試料効率の平均改善率を5.33倍に向上させる。
論文 参考訳(メタデータ) (2022-11-21T22:38:20Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。