論文の概要: Are Prompt-based Models Clueless?
- arxiv url: http://arxiv.org/abs/2205.09295v2
- Date: Fri, 20 May 2022 03:51:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-23 11:24:36.330871
- Title: Are Prompt-based Models Clueless?
- Title(参考訳): Promptベースのモデルは不要か?
- Authors: Pride Kavumba, Ryo Takahashi and Yusuke Oda
- Abstract要約: タスク固有のヘッドを持つモデルには、多くのトレーニングデータが必要です。
プロンプトベースのモデルでは、表面的なキューを利用できない。
モデルは表面的なキューを持つインスタンスでよく機能するが、表面的なキューを持たないインスタンスでは、しばしば性能が劣るか、わずかにランダムな精度でしかパフォーマンスが良くない。
- 参考スコア(独自算出の注目度): 13.64871652876671
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Finetuning large pre-trained language models with a task-specific head has
advanced the state-of-the-art on many natural language understanding
benchmarks. However, models with a task-specific head require a lot of training
data, making them susceptible to learning and exploiting dataset-specific
superficial cues that do not generalize to other datasets. Prompting has
reduced the data requirement by reusing the language model head and formatting
the task input to match the pre-training objective. Therefore, it is expected
that few-shot prompt-based models do not exploit superficial cues. This paper
presents an empirical examination of whether few-shot prompt-based models also
exploit superficial cues. Analyzing few-shot prompt-based models on MNLI, SNLI,
HANS, and COPA has revealed that prompt-based models also exploit superficial
cues. While the models perform well on instances with superficial cues, they
often underperform or only marginally outperform random accuracy on instances
without superficial cues.
- Abstract(参考訳): タスク固有のヘッドで訓練済みの大規模言語モデルを微調整することで、多くの自然言語理解ベンチマークにおける最先端の手法が進歩した。
しかし、タスク固有のヘッドを持つモデルには、多くのトレーニングデータが必要であるため、他のデータセットに一般化しないデータセット固有の表面的ヒントを学習し、活用しやすくなる。
Promptingは、言語モデルヘッドを再利用し、トレーニング済みの目的に合わせてタスク入力をフォーマットすることで、データ要求を減らした。
したがって,プロンプトベースモデルでは表面的手がかりを活用できないことが期待される。
本稿では, 単発プロンプトモデルが表面的手がかりを活用できるかどうかを実験的に検討する。
MNLI、SNLI、HANS、COPAで数発のプロンプトベースのモデルを分析することで、プロンプトベースのモデルも表面的な手がかりを利用することが明らかになった。
モデルは表面的な手掛かりのあるインスタンスでうまく機能するが、表面的な手掛かりのないインスタンスでは、ランダムな精度を過小評価したり、わずかに上回ったりすることがしばしばある。
関連論文リスト
- Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - POUF: Prompt-oriented unsupervised fine-tuning for large pre-trained
models [62.23255433487586]
モデルに微調整を施したり、ラベルのないターゲットデータにプロンプトを施したりするための教師なしの微調整フレームワークを提案する。
本稿では,プロンプトとターゲットデータから抽出した離散分布を整列させて,言語拡張視覚とマスキング言語モデルの両方に適用する方法を示す。
論文 参考訳(メタデータ) (2023-04-29T22:05:22Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Probing via Prompting [71.7904179689271]
本稿では,探索をプロンプトタスクとして定式化することで,新しいモデルフリーな探索手法を提案する。
我々は5つの探索課題について実験を行い、我々のアプローチが診断プローブよりも情報抽出に優れていることを示す。
次に,その特性に不可欠な頭部を除去し,言語モデリングにおけるモデルの性能を評価することにより,事前学習のための特定の言語特性の有用性を検討する。
論文 参考訳(メタデータ) (2022-07-04T22:14:40Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - A Simple and Interpretable Predictive Model for Healthcare [0.0]
ディープラーニングモデルは、現在、病気予測のための最先端のソリューションの大半を支配しています。
トレーニング可能なパラメータが数百万に分散したこれらのディープラーニングモデルは、トレーニングとデプロイに大量の計算とデータを必要とします。
EHRデータに適用するための,より単純かつ解釈可能な非深層学習モデルを開発した。
論文 参考訳(メタデータ) (2020-07-27T08:13:37Z) - Enriched Pre-trained Transformers for Joint Slot Filling and Intent
Detection [22.883725214057286]
本稿では,意図に基づく言語モデル学習のための新しいアーキテクチャを提案する。
そこで本研究では,意図分布,単語特徴,トークン表現を融合させることで,スロット充足作業の強化を図る。
標準データセットによる実験結果から,我々のモデルは現在の非BERT状態と,より強力なBERTベースラインの両方に優れることがわかった。
論文 参考訳(メタデータ) (2020-04-30T15:00:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。