論文の概要: Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning
- arxiv url: http://arxiv.org/abs/2109.04144v1
- Date: Thu, 9 Sep 2021 10:10:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-11 02:35:48.449836
- Title: Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning
- Title(参考訳): Few-shot Prompt-based Finetuningにおける推論ヒューリスティックの回避
- Authors: Prasetya Ajie Utama, Nafise Sadat Moosavi, Victor Sanh, Iryna Gurevych
- Abstract要約: 文ペア分類タスクのプロンプトベースモデルでは,語彙重なりに基づく推論の一般的な落とし穴が依然として残っていることを示す。
そこで,プレトレーニングウェイトを保存する正規化を加えることは,この破壊的な微調整の傾向を緩和するのに有効であることを示す。
- 参考スコア(独自算出の注目度): 57.4036085386653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent prompt-based approaches allow pretrained language models to achieve
strong performances on few-shot finetuning by reformulating downstream tasks as
a language modeling problem. In this work, we demonstrate that, despite its
advantages on low data regimes, finetuned prompt-based models for sentence pair
classification tasks still suffer from a common pitfall of adopting inference
heuristics based on lexical overlap, e.g., models incorrectly assuming a
sentence pair is of the same meaning because they consist of the same set of
words. Interestingly, we find that this particular inference heuristic is
significantly less present in the zero-shot evaluation of the prompt-based
model, indicating how finetuning can be destructive to useful knowledge learned
during the pretraining. We then show that adding a regularization that
preserves pretraining weights is effective in mitigating this destructive
tendency of few-shot finetuning. Our evaluation on three datasets demonstrates
promising improvements on the three corresponding challenge datasets used to
diagnose the inference heuristics.
- Abstract(参考訳): 近年のプロンプトベースアプローチでは、下流タスクを言語モデリング問題として再構成することで、事前訓練された言語モデルが、数ショットの微調整において強力なパフォーマンスを達成することができる。
本研究では, 文対分類タスクの微調整されたプロンプトベースモデルでは, 文対の重なり合いに基づく推論ヒューリスティックス(例えば, 文対が同じ単語集合であるとして誤って仮定されるモデル)が相変わらず, 共通の落とし穴に悩まされていることを実証する。
興味深いことに、この推論ヒューリスティックはプロンプトベースモデルのゼロショット評価にはほとんど存在せず、事前訓練中に学習した有用な知識に対して微調整がいかに破壊的かを示している。
そこで,プレトレーニングウェイトを保存する正規化を加えることで,この破壊的傾向を緩和できることを示す。
3つのデータセットに対する評価は、推論ヒューリスティックスを診断するために使用される3つの課題データセットに対する有望な改善を示す。
関連論文リスト
- Semi-supervised Learning For Robust Speech Evaluation [30.593420641501968]
音声評価は、自動モデルを用いて学習者の口頭習熟度を測定する。
本稿では,半教師付き事前学習と客観的正規化を活用することで,このような課題に対処することを提案する。
アンカーモデルは、発音の正しさを予測するために擬似ラベルを用いて訓練される。
論文 参考訳(メタデータ) (2024-09-23T02:11:24Z) - Forget-me-not! Contrastive Critics for Mitigating Posterior Collapse [20.258298183228824]
我々は,潜伏変数と観測値の対応を必要とする事で,後部崩壊を検知し,インセンティブを与える推論評論家を紹介した。
このアプローチは実装が簡単で、事前のメソッドよりもトレーニング時間が大幅に少なくなります。
論文 参考訳(メタデータ) (2022-07-19T20:07:17Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Pathologies of Pre-trained Language Models in Few-shot Fine-tuning [50.3686606679048]
実例が少ない事前学習言語モデルはラベル間に強い予測バイアスを示すことを示す。
わずかな微調整で予測バイアスを軽減できるが,本分析では,非タスク関連の特徴を捉えることで,モデルの性能向上を図っている。
これらの観察は、より少ない例でモデルのパフォーマンスを追求することは、病理学的予測行動を引き起こす可能性があることを警告する。
論文 参考訳(メタデータ) (2022-04-17T15:55:18Z) - A Mutually Reinforced Framework for Pretrained Sentence Embeddings [49.297766436632685]
InfoCSEは高品質な文埋め込みを学習するための新しいフレームワークである。
文表現モデル自体を利用して、以下の反復的な自己スーパービジョンプロセスを実現する。
言い換えれば、表現学習とデータアノテーションは相互に強化され、強い自己超越効果が導出される。
論文 参考訳(メタデータ) (2022-02-28T14:00:16Z) - Towards Robust and Adaptive Motion Forecasting: A Causal Representation
Perspective [72.55093886515824]
本稿では,3つの潜伏変数群からなる動的過程として,運動予測の因果的形式化を導入する。
我々は、因果グラフを近似するために、不変なメカニズムやスタイルの共創者の表現を分解するモジュラーアーキテクチャを考案する。
合成および実データを用いた実験結果から,提案した3つの成分は,学習した動き表現の頑健性と再利用性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-11-29T18:59:09Z) - NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task
Models [54.184609286094044]
補助モデルと付加データなしで問題を解くための学習パラダイムとして,ノイズエントロピー正規化(NoiER)を提案する。
提案手法は,従来の微調整モデルと比較して平均55%改善した。
論文 参考訳(メタデータ) (2021-08-29T06:58:28Z) - Layer-wise Analysis of a Self-supervised Speech Representation Model [26.727775920272205]
自己教師付き学習アプローチは、音声表現モデルの事前学習に成功している。
事前訓練された表現そのものに符号化された情報のタイプや範囲についてはあまり研究されていない。
論文 参考訳(メタデータ) (2021-07-10T02:13:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。