論文の概要: RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2205.12548v1
- Date: Wed, 25 May 2022 07:50:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 13:45:15.224196
- Title: RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning
- Title(参考訳): RLPrompt: 強化学習による離散テキストプロンプトの最適化
- Authors: Mingkai Deng, Jianyu Wang, Cheng-Ping Hsieh, Yihan Wang, Han Guo,
Tianmin Shu, Meng Song, Eric P. Xing, Zhiting Hu
- Abstract要約: 本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 84.75064077323098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompting has shown impressive success in enabling large pretrained language
models (LMs) to perform diverse NLP tasks, especially when only few downstream
data are available. Automatically finding the optimal prompt for each task,
however, is challenging. Most existing work resorts to tuning soft prompt
(e.g., embeddings) which falls short of interpretability, reusability across
LMs, and applicability when gradients are not accessible. Discrete prompt, on
the other hand, is difficult to optimize, and is often created by "enumeration
(e.g., paraphrasing)-then-selection" heuristics that do not explore the prompt
space systematically. This paper proposes RLPrompt, an efficient discrete
prompt optimization approach with reinforcement learning (RL). RLPrompt
formulates a parameter-efficient policy network that generates the desired
discrete prompt after training with reward. To overcome the complexity and
stochasticity of reward signals by the large LM environment, we incorporate
effective reward stabilization that substantially enhances the training
efficiency. RLPrompt is flexibly applicable to different types of LMs, such as
masked (e.g., BERT) and left-to-right models (e.g., GPTs), for both
classification and generation tasks. Experiments on few-shot classification and
unsupervised text style transfer show superior performance over a wide range of
existing finetuning or prompting methods. Interestingly, the resulting
optimized prompts are often ungrammatical gibberish text; and surprisingly,
those gibberish prompts are transferrable between different LMs to retain
significant performance, indicating LM prompting may not follow human language
patterns.
- Abstract(参考訳): プロンプトは、特に下流データが少ない場合に、大きな事前学習された言語モデル(lms)が多様なnlpタスクを実行可能にするという素晴らしい成功を示している。
しかし、各タスクに最適なプロンプトを自動的に見つけることは難しい。
既存の作業の多くは、解釈可能性に欠けるソフトプロンプト(例えば埋め込み)のチューニング、LM間の再利用性、勾配がアクセスできない場合の適用性に頼っている。
一方、離散的プロンプトは最適化が困難であり、しばしば「列挙(例:パラフレージング)-then-selection」ヒューリスティックによって生成され、プロンプト空間を体系的に探索しない。
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、報酬付きトレーニング後に所望の離散的なプロンプトを生成するパラメータ効率の高いポリシーネットワークを定式化する。
大きなlm環境下での報奨信号の複雑さと確率性を克服するために,訓練効率を大幅に向上させる効果的な報奨安定化を組み込んだ。
RLPromptは、マスキング(例えばBERT)や左から右へのモデル(例えばGPT)といった異なる種類のLMに対して、分類と生成の両方に柔軟に適用できる。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインチューニングやプロンプト手法よりも優れた性能を示す。
興味深いことに、得られた最適化されたプロンプトは、しばしば非文法的なジブベリ文字であり、驚くべきことに、これらのジブベリ文字プロンプトは、異なるLM間で大きなパフォーマンスを維持するために転送可能である。
関連論文リスト
- Intent-based Prompt Calibration: Enhancing prompt optimization with
synthetic boundary cases [2.6159111710501506]
本稿では,ユーザ意図に対するプロンプトを反復的に洗練するキャリブレーションプロセスを用いて,自動プロンプトエンジニアリングの新しい手法を提案する。
我々は,モデレーションや生成といった現実的なタスクにおいて,強力なプロプライエタリなモデルに対して,本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-02-05T15:28:43Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - PREFER: Prompt Ensemble Learning via Feedback-Reflect-Refine [24.888093229577965]
提案する制約に対処するため,Prefer という,シンプルで普遍的で自動的な手法を提案する。
我々のPreferは、複数のタスクにおける最先端のパフォーマンスを、大きなマージンで達成する。
論文 参考訳(メタデータ) (2023-08-23T09:46:37Z) - Prompt Space Optimizing Few-shot Reasoning Success with Large Language
Models [6.280118165021093]
プロンプトエンジニアリングにより、算術的推論、質問応答、要約、関係抽出、機械翻訳、感情分析などの様々なタスクにおいて、大きな言語モデル(LLM)が優れている。
現在のアプローチでは、最適なプロンプトを決定するための確かな理論基盤が欠如している。
提案手法では,テキスト埋め込みを用いて行列分解による基底ベクトルを取得し,すべてのプロンプトを表す空間を構築する。
論文 参考訳(メタデータ) (2023-06-06T15:43:16Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z) - PromptBoosting: Black-Box Text Classification with Ten Forward Passes [61.38341243907045]
PromptBoostingは、LMのパラメータ、勾配、隠された表現にアクセスすることなく、ニューラルネットワークモデル(LM)からテキスト分類器を構築するためのクエリ効率のよい手順である。
実験によると、PromptBoostingは複数のブラックボックスのいくつかのショット分類タスクで最先端のパフォーマンスを達成し、既存のブラックボックスメソッドよりも10倍速くトレーニングしながら、少数ショットと標準学習のパラダイムの両方で完全な微調整をマッチまたは上回っている。
論文 参考訳(メタデータ) (2022-12-19T06:04:54Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z) - MetaPrompting: Learning to Learn Better Prompts [52.914694884515534]
本稿では,メタプロンプトと呼ばれるソフトプロンプト手法を提案する。
大規模な実験は、MetaPromptingが4つの異なるデータセットに大きな改善をもたらすことを示している。
論文 参考訳(メタデータ) (2022-09-23T09:01:05Z) - Making Pre-trained Language Models End-to-end Few-shot Learners with
Contrastive Prompt Tuning [41.15017636192417]
CP-Tuning(CP-Tuning)は、言語モデルのための最初のエンドツーエンドのPrompt Tuningフレームワークである。
完全にトレーニング可能なプロンプトパラメータを持つタスク不変の連続プロンプトエンコーディング技術と統合されている。
IRシステムや異なるPLMで使用される様々な言語理解タスクの実験は、CP-Tuningが最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2022-04-01T02:24:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。