論文の概要: Dialogue for Prompting: a Policy-Gradient-Based Discrete Prompt
Optimization for Few-shot Learning
- arxiv url: http://arxiv.org/abs/2308.07272v1
- Date: Mon, 14 Aug 2023 16:58:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 12:28:41.578284
- Title: Dialogue for Prompting: a Policy-Gradient-Based Discrete Prompt
Optimization for Few-shot Learning
- Title(参考訳): プロンプトのための対話:マイナショット学習のための政策段階に基づく離散的プロンプト最適化
- Authors: Chengzhengxu Li, Xiaoming Liu, Yichen Wang, Duyi Li, Yu Lan, Chao Shen
- Abstract要約: 事前の離散的なプロンプト最適化法は、基本プロンプトセットを設計し、高品質なプロンプトを特定するために専門家の知識を必要とする。
既存の連続的なプロンプト最適化手法は、理想的なプロンプトを学習することで性能を向上させる。
数ショット設定でタスク上でのPLMパラメータサイズのわずか0.67%のポリシネットワークをトレーニングすることにより、$DPO$は4つのオープンソースデータセットで1.52%の精度で最先端(SOTA)メソッドを上回ります。
- 参考スコア(独自算出の注目度): 14.200398093260118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt-based pre-trained language models (PLMs) paradigm have succeeded
substantially in few-shot natural language processing (NLP) tasks. However,
prior discrete prompt optimization methods require expert knowledge to design
the base prompt set and identify high-quality prompts, which is costly,
inefficient, and subjective. Meanwhile, existing continuous prompt optimization
methods improve the performance by learning the ideal prompts through the
gradient information of PLMs, whose high computational cost, and low
readability and generalizability are often concerning. To address the research
gap, we propose a Dialogue-comprised Policy-gradient-based Discrete Prompt
Optimization ($DP_2O$) method. We first design a multi-round dialogue alignment
strategy for readability prompt set generation based on GPT-4. Furthermore, we
propose an efficient prompt screening metric to identify high-quality prompts
with linear complexity. Finally, we construct a reinforcement learning (RL)
framework based on policy gradients to match the prompts to inputs optimally.
By training a policy network with only 0.67% of the PLM parameter size on the
tasks in the few-shot setting, $DP_2O$ outperforms the state-of-the-art (SOTA)
method by 1.52% in accuracy on average on four open-source datasets. Moreover,
subsequent experiments also demonstrate that $DP_2O$ has good universality,
robustness, and generalization ability.
- Abstract(参考訳): プロンプトベースの事前学習言語モデル(PLM)パラダイムは、NLPタスクにおいて大きく成功している。
しかし、事前の離散的なプロンプト最適化手法は、基本プロンプトセットを設計し、高品質なプロンプトを識別する専門家の知識を必要とする。
一方,従来の連続的プロンプト最適化手法は,計算コストが高く,可読性や一般化性が低いPLMの勾配情報から理想的プロンプトを学習することで,性能を向上させる。
本研究のギャップに対処するため,対話型政策段階型離散プロンプト最適化法(DP_2O$)を提案する。
まず,GPT-4に基づく可読性プロンプトセット生成のための多ラウンド対話アライメント戦略を設計する。
さらに,線形複雑度の高い高品質なプロンプトを同定するための効率的なプロンプトスクリーニング指標を提案する。
最後に、ポリシー勾配に基づく強化学習(RL)フレームワークを構築し、入力のプロンプトを最適に一致させる。
PLMパラメータサイズのわずか0.67%のポリシネットワークを数ショット設定でトレーニングすることで、$DP_2O$は4つのオープンソースデータセットで平均1.52%の精度で最先端(SOTA)メソッドを上回ります。
さらに、その後の実験では、$DP_2O$ が優れた普遍性、堅牢性、一般化能力を持つことも示されている。
関連論文リスト
- GRL-Prompt: Towards Knowledge Graph based Prompt Optimization via Reinforcement Learning [8.307785339429863]
大規模言語モデル(LLM)の迅速な最適化のための新しいフレームワークを提案する。
GRL-Promptは、強化学習(RL)を通じて、エンドツーエンドで最適なプロンプトを自動構築することを目的としている。
GRL-Promptは最近の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-11-19T10:52:25Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - Efficient Prompting Methods for Large Language Models: A Survey [50.171011917404485]
プロンプティングは、特定の自然言語処理タスクに大規模言語モデル(LLM)を適用するための主流パラダイムとなっている。
このアプローチは、LLMの振る舞いをガイドし、制御するために、モデル推論と人間の努力のさらなる計算負担をもたらす。
本稿では, 今後の研究の方向性を明らかにするため, 促進, 効率的な促進のための進歩を概説する。
論文 参考訳(メタデータ) (2024-04-01T12:19:08Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - Instance-wise Prompt Tuning for Pretrained Language Models [72.74916121511662]
インスタンスワイドのPrompt Tuning(IPT)は、入力データインスタンスからプロンプトに知識を注入する最初のプロンプト学習パラダイムである。
IPTはタスクベースのプロンプト学習法を著しく上回り、調律パラメータのわずか0.5%から1.5%で従来の微調整に匹敵する性能を達成している。
論文 参考訳(メタデータ) (2022-06-04T10:08:50Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z) - AdaPrompt: Adaptive Model Training for Prompt-based NLP [77.12071707955889]
PLMの継続事前学習のための外部データを適応的に検索するAdaPromptを提案する。
5つのNLPベンチマークの実験結果から、AdaPromptは数ショット設定で標準PLMよりも改善可能であることが示された。
ゼロショット設定では、標準のプロンプトベースの手法を26.35%の相対誤差削減で上回ります。
論文 参考訳(メタデータ) (2022-02-10T04:04:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。