論文の概要: RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2205.12548v1
- Date: Wed, 25 May 2022 07:50:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 13:45:15.224196
- Title: RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning
- Title(参考訳): RLPrompt: 強化学習による離散テキストプロンプトの最適化
- Authors: Mingkai Deng, Jianyu Wang, Cheng-Ping Hsieh, Yihan Wang, Han Guo,
Tianmin Shu, Meng Song, Eric P. Xing, Zhiting Hu
- Abstract要約: 本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 84.75064077323098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompting has shown impressive success in enabling large pretrained language
models (LMs) to perform diverse NLP tasks, especially when only few downstream
data are available. Automatically finding the optimal prompt for each task,
however, is challenging. Most existing work resorts to tuning soft prompt
(e.g., embeddings) which falls short of interpretability, reusability across
LMs, and applicability when gradients are not accessible. Discrete prompt, on
the other hand, is difficult to optimize, and is often created by "enumeration
(e.g., paraphrasing)-then-selection" heuristics that do not explore the prompt
space systematically. This paper proposes RLPrompt, an efficient discrete
prompt optimization approach with reinforcement learning (RL). RLPrompt
formulates a parameter-efficient policy network that generates the desired
discrete prompt after training with reward. To overcome the complexity and
stochasticity of reward signals by the large LM environment, we incorporate
effective reward stabilization that substantially enhances the training
efficiency. RLPrompt is flexibly applicable to different types of LMs, such as
masked (e.g., BERT) and left-to-right models (e.g., GPTs), for both
classification and generation tasks. Experiments on few-shot classification and
unsupervised text style transfer show superior performance over a wide range of
existing finetuning or prompting methods. Interestingly, the resulting
optimized prompts are often ungrammatical gibberish text; and surprisingly,
those gibberish prompts are transferrable between different LMs to retain
significant performance, indicating LM prompting may not follow human language
patterns.
- Abstract(参考訳): プロンプトは、特に下流データが少ない場合に、大きな事前学習された言語モデル(lms)が多様なnlpタスクを実行可能にするという素晴らしい成功を示している。
しかし、各タスクに最適なプロンプトを自動的に見つけることは難しい。
既存の作業の多くは、解釈可能性に欠けるソフトプロンプト(例えば埋め込み)のチューニング、LM間の再利用性、勾配がアクセスできない場合の適用性に頼っている。
一方、離散的プロンプトは最適化が困難であり、しばしば「列挙(例:パラフレージング)-then-selection」ヒューリスティックによって生成され、プロンプト空間を体系的に探索しない。
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、報酬付きトレーニング後に所望の離散的なプロンプトを生成するパラメータ効率の高いポリシーネットワークを定式化する。
大きなlm環境下での報奨信号の複雑さと確率性を克服するために,訓練効率を大幅に向上させる効果的な報奨安定化を組み込んだ。
RLPromptは、マスキング(例えばBERT)や左から右へのモデル(例えばGPT)といった異なる種類のLMに対して、分類と生成の両方に柔軟に適用できる。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインチューニングやプロンプト手法よりも優れた性能を示す。
興味深いことに、得られた最適化されたプロンプトは、しばしば非文法的なジブベリ文字であり、驚くべきことに、これらのジブベリ文字プロンプトは、異なるLM間で大きなパフォーマンスを維持するために転送可能である。
関連論文リスト
- IPO: Interpretable Prompt Optimization for Vision-Language Models [40.83071220530289]
本稿では,シンプルだが解釈可能なプロンプト(IPO)を紹介する。
IPOは大規模言語モデル(LLM)を使用してテキストプロンプトを動的に生成する。
画像記述を生成することで、視覚的内容の条件付けに大型マルチモーダルモデル(LMM)を組み込む。
論文 参考訳(メタデータ) (2024-10-20T14:10:22Z) - Learning from Contrastive Prompts: Automated Optimization and Adaptation [7.455360923031003]
本稿では,高速な最適化と適応を実現するためのLCP(Learning from Contrastive Prompts)フレームワークを提案する。
LCPは、良い例と悪い例のパターンを分析することによって効果的なプロンプトを生成するために、対照的な学習を採用している。
我々のBig-Bench Hardデータセットに対する評価は、LCPが既存の最適化手法よりも76%以上勝っていることを示している。
論文 参考訳(メタデータ) (2024-09-23T16:47:23Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - Efficient Prompting Methods for Large Language Models: A Survey [50.171011917404485]
プロンプティングは、特定の自然言語処理タスクに大規模言語モデル(LLM)を適用するための主流パラダイムとなっている。
このアプローチは、LLMの振る舞いをガイドし、制御するために、モデル推論と人間の努力のさらなる計算負担をもたらす。
本稿では, 今後の研究の方向性を明らかにするため, 促進, 効率的な促進のための進歩を概説する。
論文 参考訳(メタデータ) (2024-04-01T12:19:08Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - PromptBoosting: Black-Box Text Classification with Ten Forward Passes [61.38341243907045]
PromptBoostingは、LMのパラメータ、勾配、隠された表現にアクセスすることなく、ニューラルネットワークモデル(LM)からテキスト分類器を構築するためのクエリ効率のよい手順である。
実験によると、PromptBoostingは複数のブラックボックスのいくつかのショット分類タスクで最先端のパフォーマンスを達成し、既存のブラックボックスメソッドよりも10倍速くトレーニングしながら、少数ショットと標準学習のパラダイムの両方で完全な微調整をマッチまたは上回っている。
論文 参考訳(メタデータ) (2022-12-19T06:04:54Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。