Fugu-MT 論文翻訳(概要): RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning

論文の概要: RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning

arxiv url: http://arxiv.org/abs/2205.12548v1
Date: Wed, 25 May 2022 07:50:31 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-26 13:45:15.224196
Title: RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning
Title（参考訳）: RLPrompt: 強化学習による離散テキストプロンプトの最適化
Authors: Mingkai Deng, Jianyu Wang, Cheng-Ping Hsieh, Yihan Wang, Han Guo, Tianmin Shu, Meng Song, Eric P. Xing, Zhiting Hu
Abstract要約: 本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。 RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
参考スコア（独自算出の注目度）: 84.75064077323098
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Prompting has shown impressive success in enabling large pretrained language models (LMs) to perform diverse NLP tasks, especially when only few downstream data are available. Automatically finding the optimal prompt for each task, however, is challenging. Most existing work resorts to tuning soft prompt (e.g., embeddings) which falls short of interpretability, reusability across LMs, and applicability when gradients are not accessible. Discrete prompt, on the other hand, is difficult to optimize, and is often created by "enumeration (e.g., paraphrasing)-then-selection" heuristics that do not explore the prompt space systematically. This paper proposes RLPrompt, an efficient discrete prompt optimization approach with reinforcement learning (RL). RLPrompt formulates a parameter-efficient policy network that generates the desired discrete prompt after training with reward. To overcome the complexity and stochasticity of reward signals by the large LM environment, we incorporate effective reward stabilization that substantially enhances the training efficiency. RLPrompt is flexibly applicable to different types of LMs, such as masked (e.g., BERT) and left-to-right models (e.g., GPTs), for both classification and generation tasks. Experiments on few-shot classification and unsupervised text style transfer show superior performance over a wide range of existing finetuning or prompting methods. Interestingly, the resulting optimized prompts are often ungrammatical gibberish text; and surprisingly, those gibberish prompts are transferrable between different LMs to retain significant performance, indicating LM prompting may not follow human language patterns.
Abstract（参考訳）: プロンプトは、特に下流データが少ない場合に、大きな事前学習された言語モデル(lms)が多様なnlpタスクを実行可能にするという素晴らしい成功を示している。しかし、各タスクに最適なプロンプトを自動的に見つけることは難しい。既存の作業の多くは、解釈可能性に欠けるソフトプロンプト(例えば埋め込み)のチューニング、LM間の再利用性、勾配がアクセスできない場合の適用性に頼っている。一方、離散的プロンプトは最適化が困難であり、しばしば「列挙(例:パラフレージング)-then-selection」ヒューリスティックによって生成され、プロンプト空間を体系的に探索しない。本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。 RLPromptは、報酬付きトレーニング後に所望の離散的なプロンプトを生成するパラメータ効率の高いポリシーネットワークを定式化する。大きなlm環境下での報奨信号の複雑さと確率性を克服するために,訓練効率を大幅に向上させる効果的な報奨安定化を組み込んだ。 RLPromptは、マスキング(例えばBERT)や左から右へのモデル(例えばGPT)といった異なる種類のLMに対して、分類と生成の両方に柔軟に適用できる。少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインチューニングやプロンプト手法よりも優れた性能を示す。興味深いことに、得られた最適化されたプロンプトは、しばしば非文法的なジブベリ文字であり、驚くべきことに、これらのジブベリ文字プロンプトは、異なるLM間で大きなパフォーマンスを維持するために転送可能である。

関連論文リスト

Weighted Multi-Prompt Learning with Description-free Large Language Model Distillation [1.3381749415517021]
大規模言語モデル(LLM)をプロンプトに活用する新たなアプローチが提案されている。既存の方法は典型的には LLM からテキストベースの応答(つまり記述)を抽出し、プロンプトに組み込む。記述を抽出し, LLM から直接知識を抽出する新たな手法として, 記述不要なマルチプロンプト学習(DeMul)を提案する。
論文参考訳（メタデータ） (2025-07-09T07:55:25Z)
Robustness-aware Automatic Prompt Optimization [45.43458098928881]
本稿では,入力摂動に耐えられる新しいプロンプト生成法であるBATpromptを提案する。敵の訓練技術に触発されて、BATpromptは様々な摂動タスクで強いパフォーマンスを示す。言語理解タスクと生成タスクの両方にわたる複数のデータセット上で,BATpromptを評価する。
論文参考訳（メタデータ） (2024-12-24T06:05:08Z)
GReaTer: Gradients over Reasoning Makes Smaller Language Models Strong Prompt Optimizers [52.17222304851524]
本稿では,タスク固有の推論よりも勾配情報を直接組み込む新しいプロンプト最適化手法であるGReaTerを紹介する。 GReaTerはタスク損失勾配を利用して、オープンソースの軽量言語モデルのためのプロンプトの自己最適化を可能にする。 GReaTerは、従来の最先端のプロンプト最適化手法を一貫して上回っている。
論文参考訳（メタデータ） (2024-12-12T20:59:43Z)
IPO: Interpretable Prompt Optimization for Vision-Language Models [40.83071220530289]
本稿では,シンプルだが解釈可能なプロンプト(IPO)を紹介する。 IPOは大規模言語モデル(LLM)を使用してテキストプロンプトを動的に生成する。画像記述を生成することで、視覚的内容の条件付けに大型マルチモーダルモデル(LMM)を組み込む。
論文参考訳（メタデータ） (2024-10-20T14:10:22Z)
In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-04T03:39:28Z)
Learning from Contrastive Prompts: Automated Optimization and Adaptation [7.455360923031003]
本稿では,高速な最適化と適応を実現するためのLCP(Learning from Contrastive Prompts)フレームワークを提案する。 LCPは、良い例と悪い例のパターンを分析することによって効果的なプロンプトを生成するために、対照的な学習を採用している。我々のBig-Bench Hardデータセットに対する評価は、LCPが既存の最適化手法よりも76%以上勝っていることを示している。
論文参考訳（メタデータ） (2024-09-23T16:47:23Z)
QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文参考訳（メタデータ） (2024-08-20T03:06:48Z)
Efficient Prompting Methods for Large Language Models: A Survey [50.171011917404485]
プロンプティングは、特定の自然言語処理タスクに大規模言語モデル(LLM)を適用するための主流パラダイムとなっている。このアプローチは、LLMの振る舞いをガイドし、制御するために、モデル推論と人間の努力のさらなる計算負担をもたらす。本稿では, 今後の研究の方向性を明らかにするため, 促進, 効率的な促進のための進歩を概説する。
論文参考訳（メタデータ） (2024-04-01T12:19:08Z)
Query-Dependent Prompt Evaluation and Optimization with Offline Inverse RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。このような最適化では、以前見過ごされたクエリ依存の目的を特定します。本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文参考訳（メタデータ） (2023-09-13T01:12:52Z)
PromptBoosting: Black-Box Text Classification with Ten Forward Passes [61.38341243907045]
PromptBoostingは、LMのパラメータ、勾配、隠された表現にアクセスすることなく、ニューラルネットワークモデル(LM)からテキスト分類器を構築するためのクエリ効率のよい手順である。実験によると、PromptBoostingは複数のブラックボックスのいくつかのショット分類タスクで最先端のパフォーマンスを達成し、既存のブラックボックスメソッドよりも10倍速くトレーニングしながら、少数ショットと標準学習のパラダイムの両方で完全な微調整をマッチまたは上回っている。
論文参考訳（メタデータ） (2022-12-19T06:04:54Z)
Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文参考訳（メタデータ） (2022-10-05T17:05:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。