論文の概要: Don't Stop Pretraining? Make Prompt-based Fine-tuning Powerful Learner
- arxiv url: http://arxiv.org/abs/2305.01711v4
- Date: Fri, 6 Oct 2023 17:47:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 13:15:10.324709
- Title: Don't Stop Pretraining? Make Prompt-based Fine-tuning Powerful Learner
- Title(参考訳): 予習はやめないの?
Promptベースのファインチューニングパワーフルラーニング
- Authors: Zhengxiang Shi, Aldo Lipani
- Abstract要約: 我々は,NLPの事前学習が下流タスクにおけるファインチューニング(FT)の性能を向上させるという概念を再考する。
本稿では,Promptベースの継続事前学習(PCP)を提案する。
21のベンチマークによる実証評価の結果,PCP は最先端のプロンプトベースのFT アプローチの性能を一貫して向上することが示された。
- 参考スコア(独自算出の注目度): 14.975436239088312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models (LMs) trained on vast quantities of unlabelled data have
greatly advanced the field of natural language processing (NLP). In this study,
we re-visit the widely accepted notion in NLP that continued pre-training LMs
on task-related texts improves the performance of fine-tuning (FT) in
downstream tasks. Through experiments on eight single-sentence tasks and eight
sentence-pair tasks in both semi-supervised and fully-supervised settings, we
find that conventional continued pre-training does not consistently provide
benefits and can even be detrimental for sentence-pair tasks or when
prompt-based FT is used. To tackle these issues, we propose Prompt-based
Continued Pre-training (PCP), which combines the idea of instruction tuning
with conventional continued pre-training. Our approach aims to improve the
performance of prompt-based FT by presenting both task-related texts and prompt
templates to LMs through unsupervised pre-training objectives before
fine-tuning for the target task. Our empirical evaluations on 21 benchmarks
demonstrate that the PCP consistently improves the performance of
state-of-the-art prompt-based FT approaches (up to 20.1% absolute) in both
semi-supervised and fully-supervised settings, even with only hundreds of
unlabelled examples. Additionally, prompt-based FT with the PCP outperforms
state-of-the-art semi-supervised approaches with greater simplicity,
eliminating the need for an iterative process and extra data augmentation. Our
further analysis explores the performance lower bound of the PCP and reveals
that the advantages of PCP persist across different sizes of models and
datasets.
- Abstract(参考訳): 言語モデル (LM) は、膨大な量の未ラベルデータに基づいて訓練され、自然言語処理 (NLP) の分野を大きく進歩させた。
本研究では,タスク関連テキストの事前学習を継続するNLPにおける広く受け入れられている概念を再検討し,下流タスクにおける微調整(FT)の性能を向上させる。
8つの単文タスクと8つの文ペアタスクを半教師付きおよび完全教師付き設定の両方で実験した結果、従来の継続前訓練は必ずしも利点を提供しておらず、文ペアタスクやプロンプトベースのftを使用する場合にも有害であることがわかった。
これらの課題に対処するために,従来の継続事前学習とインストラクションチューニングのアイデアを組み合わせたPrompt-based Continued Pre-training (PCP)を提案する。
本手法は,目標タスクを微調整する前に教師なし事前学習目標により,タスク関連テキストとプロンプトテンプレートの両方をlmsに提示することにより,プロンプトベースftの性能を向上させることを目的としている。
21のベンチマークに対する実証的な評価では、PCPは、数百の未実装例であっても、半教師付きおよび完全教師付き設定の両方において、最先端のプロンプトベースのFTアプローチ(最大20.1%の絶対)の性能を一貫して改善することを示した。
さらに、PCPによるプロンプトベースのFTは、最先端の半教師付きアプローチをより単純さで上回り、反復処理や追加データ拡張の必要性を排除している。
さらに,PCPの性能低下を考察し,PCPの利点がモデルやデータセットの異なるサイズで持続していることを明らかにする。
関連論文リスト
- TapWeight: Reweighting Pretraining Objectives for Task-Adaptive Pretraining [34.93043212352875]
TapWeightはタスク適応型事前学習フレームワークで、各事前学習対象の最適な重要性を自動的に決定する。
我々はTapWeightを分子特性予測と自然言語理解タスクの両方に適用し,ベースライン法をはるかに上回った。
論文 参考訳(メタデータ) (2024-10-13T20:56:13Z) - Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。
事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。
次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文 参考訳(メタデータ) (2024-08-21T06:48:38Z) - Revisiting the Power of Prompt for Visual Tuning [50.11465784194896]
本研究では,プロンプトとパッチトークンの相互関係について検討した。
プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。
本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
論文 参考訳(メタデータ) (2024-02-04T07:49:02Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - AdaPrompt: Adaptive Model Training for Prompt-based NLP [77.12071707955889]
PLMの継続事前学習のための外部データを適応的に検索するAdaPromptを提案する。
5つのNLPベンチマークの実験結果から、AdaPromptは数ショット設定で標準PLMよりも改善可能であることが示された。
ゼロショット設定では、標準のプロンプトベースの手法を26.35%の相対誤差削減で上回ります。
論文 参考訳(メタデータ) (2022-02-10T04:04:57Z) - Self-training Improves Pre-training for Natural Language Understanding [63.78927366363178]
我々は、半教師付き学習を通じてラベルのないデータを活用する別の方法として、自己学習について研究する。
本稿では,ラベル付きデータからタスク固有のクエリの埋め込みを計算するデータ拡張手法であるSentAugmentを紹介する。
我々のアプローチは、標準的なテキスト分類ベンチマークで最大2.6%の改善を達成し、スケーラブルで効果的な自己学習に繋がる。
論文 参考訳(メタデータ) (2020-10-05T17:52:25Z) - On Losses for Modern Language Models [18.56205816291398]
NSPは文脈分割と浅瀬意味信号による訓練に有害であることを示す。
マルチタスク事前トレーニングフレームワークで複数のタスクを使用すると、単一の補助タスクを使用するよりも優れた結果が得られる。
論文 参考訳(メタデータ) (2020-10-04T21:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。