論文の概要: PRewrite: Prompt Rewriting with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2401.08189v4
- Date: Mon, 10 Jun 2024 13:46:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 04:08:57.630870
- Title: PRewrite: Prompt Rewriting with Reinforcement Learning
- Title(参考訳): Prewrite: 強化学習によるプロンプト書き換え
- Authors: Weize Kong, Spurthi Amba Hombaiah, Mingyang Zhang, Qiaozhu Mei, Michael Bendersky,
- Abstract要約: より効率的なプロンプトに最適化されていないプロンプトを書き換える自動化手法であるPRewriteを提案する。
我々は、PRewriteの有効性を示す様々なベンチマークデータセットの実験を行う。
- 参考スコア(独自算出の注目度): 23.120358549806127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt engineering is critical for the development of LLM-based applications. However, it is usually done manually in a "trial and error" fashion that can be time consuming, ineffective, and sub-optimal. Even for the prompts which seemingly work well, there is always a lingering question: can the prompts be made better with further modifications? To address these problems, we investigate automated prompt engineering in this paper. Specifically, we propose PRewrite, an automated method to rewrite an under-optimized prompt to a more effective prompt. We instantiate the prompt rewriter using a LLM. The rewriter LLM is trained using reinforcement learning to optimize the performance on a given downstream task. We conduct experiments on diverse benchmark datasets, which demonstrates the effectiveness of PRewrite.
- Abstract(参考訳): プロンプトエンジニアリングはLLMベースのアプリケーションの開発に不可欠である。
しかし、通常は手動で「試行錯誤」のやり方で行われ、それは時間を費やし、非効率で、準最適である。
うまく機能しているように見えるプロンプトであっても、常につまらない疑問があります。
これらの問題に対処するために,本稿では,自動プロンプトエンジニアリングについて検討する。
具体的には、最適化されていないプロンプトをより効果的なプロンプトに書き換える自動化手法であるPRewriteを提案する。
LLMを用いてプロンプトリライタをインスタンス化する。
リライターLLMは、所定の下流タスクのパフォーマンスを最適化するために強化学習を用いて訓練される。
我々は、PRewriteの有効性を示す様々なベンチマークデータセットの実験を行う。
関連論文リスト
- The Prompt Alchemist: Automated LLM-Tailored Prompt Optimization for Test Case Generation [17.064672221710307]
大きな言語モデル(LLM)は、与えられたソースコードに対して有用なテストケースを生成することができる。
現存する作品は、主に人書きの平易なプロンプトに依存している。
論文 参考訳(メタデータ) (2025-01-02T16:30:05Z) - R-Bot: An LLM-based Query Rewrite System [15.46599915198438]
機械学習に基づくクエリ書き換えシステムであるR-Botを提案する。
まず,複数ソースのリライトエビデンス作成パイプラインを設計し,クエリリライトエビデンスを生成する。
次に,構造解析と意味解析を組み合わせたハイブリッド・セマンティック検索手法を提案する。
広く使われているベンチマークで包括的な実験を行い、システムの性能を実証する。
論文 参考訳(メタデータ) (2024-12-02T16:13:04Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - Prompt Optimization with Human Feedback [69.95991134172282]
人間のフィードバックによる迅速な最適化問題(POHF)について検討する。
我々は自動POHF(Automatic POHF)というアルゴリズムを導入する。
その結果、APOHFは、少数の好みフィードバックインスタンスを用いて、効率的に適切なプロンプトを見つけることができることがわかった。
論文 参考訳(メタデータ) (2024-05-27T16:49:29Z) - LLM-R2: A Large Language Model Enhanced Rule-based Rewrite System for Boosting Query Efficiency [65.01402723259098]
本稿では,LLM-R2 という新しいクエリ書き換え手法を提案する。
実験結果から,本手法はクエリ実行効率を大幅に向上し,ベースライン法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-04-19T13:17:07Z) - PAP-REC: Personalized Automatic Prompt for Recommendation Language Model [46.07664597084786]
本稿では,ReCommendation言語モデルのためのパーソナライズされた自動プロンプトを生成するフレームワークであるPAP-RECを提案する。
レコメンデーション言語モデルのためのパーソナライズされた自動プロンプト生成の課題の1つは、非常に大きな検索空間である。
我々は、サロゲートメトリクスを開発し、リコメンデーション言語モデルを促すために、代替の更新スケジュールを活用する。
論文 参考訳(メタデータ) (2024-02-01T02:29:16Z) - Evoke: Evoking Critical Thinking Abilities in LLMs via Reviewer-Author
Prompt Editing [19.241543540941283]
大規模言語モデル(LLM)は、自然言語処理において顕著な進歩を遂げた。
本稿では,自動プロンプトリファインメントフレームワークであるEvokeを提案する。
一つはレビュアーとして、もう一つは現在のプロンプトをスコアし、もう一つは著者として、編集履歴とレビュアーのフィードバックを考慮してプロンプトを編集する。
論文 参考訳(メタデータ) (2023-10-20T23:15:59Z) - Prompt Space Optimizing Few-shot Reasoning Success with Large Language Models [7.453926835095568]
プロンプトエンジニアリングにより、算術的推論、質問応答、要約、関係抽出、機械翻訳、感情分析などの様々なタスクにおいて、大きな言語モデル(LLM)が優れている。
現在のアプローチでは、最適なプロンプトを決定するための厳密な数学的解決策が欠如している。
提案手法では,テキスト埋め込みを用いて行列分解による基底ベクトルを取得し,すべてのプロンプトを表す空間を構築する。
論文 参考訳(メタデータ) (2023-06-06T15:43:16Z) - Automatic Prompt Optimization with "Gradient Descent" and Beam Search [64.08364384823645]
大きな言語モデル(LLM)は汎用エージェントとして優れたパフォーマンスを示しているが、その能力はプロンプトに大きく依存している。
この問題に対する単純で非パラメトリックな解である自動プロンプト最適化(APO)を提案する。
APOはデータのミニバッチを使用して、現在のプロンプトを批判する自然言語「段階的」を形成する。
次に、勾配の反対の意味方向のプロンプトを編集することで、勾配をプロンプトに「伝播」する。
論文 参考訳(メタデータ) (2023-05-04T15:15:22Z) - TEMPERA: Test-Time Prompting via Reinforcement Learning [57.48657629588436]
強化学習(TEMPERA)を用いたテスト時間プロンプト編集を提案する。
従来のプロンプト生成手法とは対照的に、TEMPERAは事前知識を効率的に活用することができる。
本手法は従来の微調整法と比較して試料効率の平均改善率を5.33倍に向上させる。
論文 参考訳(メタデータ) (2022-11-21T22:38:20Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。