論文の概要: Protum: A New Method For Prompt Tuning Based on "[MASK]"
- arxiv url: http://arxiv.org/abs/2201.12109v1
- Date: Fri, 28 Jan 2022 13:34:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-31 14:58:23.608198
- Title: Protum: A New Method For Prompt Tuning Based on "[MASK]"
- Title(参考訳): Protum: "[MASK]"に基づくプロンプトチューニングの新しい方法
- Authors: Pan He and Yuxi Chen and Yan Wang and Yanru Zhang
- Abstract要約: 本稿では,[textbfMASK](textbfProtum)法に基づく新しいtextbfPrompt textbfTuningを提案する。
textbfProtumは、時間消費の少ない継続的な事前トレーニングの後、微調整よりもはるかに優れたパフォーマンスを実現することができる。
- 参考スコア(独自算出の注目度): 12.057434751507552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, prompt tuning \cite{lester2021power} has gradually become a new
paradigm for NLP, which only depends on the representation of the words by
freezing the parameters of pre-trained language models (PLMs) to obtain
remarkable performance on downstream tasks. It maintains the consistency of
Masked Language Model (MLM) \cite{devlin2018bert} task in the process of
pre-training, and avoids some issues that may happened during fine-tuning.
Naturally, we consider that the "[MASK]" tokens carry more useful information
than other tokens because the model combines with context to predict the masked
tokens. Among the current prompt tuning methods, there will be a serious
problem of random composition of the answer tokens in prediction when they
predict multiple words so that they have to map tokens to labels with the help
verbalizer. In response to the above issue, we propose a new \textbf{Pro}mpt
\textbf{Tu}ning based on "[\textbf{M}ASK]" (\textbf{Protum}) method in this
paper, which constructs a classification task through the information carried
by the hidden layer of "[MASK]" tokens and then predicts the labels directly
rather than the answer tokens. At the same time, we explore how different
hidden layers under "[MASK]" impact on our classification model on many
different data sets. Finally, we find that our \textbf{Protum} can achieve much
better performance than fine-tuning after continuous pre-training with less
time consumption. Our model facilitates the practical application of large
models in NLP.
- Abstract(参考訳): 近年, 先行学習言語モデル (PLM) のパラメータを凍結することにより, 下流タスクにおける顕著な性能を得ることにより, 単語の表現にのみ依存する, NLP の新たなパラダイムとなっている。
Masked Language Model (MLM) \cite{devlin2018bert} タスクの事前トレーニングプロセスにおける一貫性を維持し、微調整中に発生する可能性のある問題を回避する。
当然、"[mask]"トークンは他のトークンよりも有用な情報を持っていると考えます。
現在のプロンプトチューニング手法では,複数の単語を予測した場合の解答トークンのランダムな構成に深刻な問題があるため,ヘルプ弁解器を用いてラベルにトークンをマッピングする必要がある。
そこで,本稿では,[[mask]"トークンの隠れた層によって保持される情報を通じて分類タスクを構築し,応答トークンではなくラベルを直接予測する手法である,<textbf{m}ask] (\textbf{protum}) 法に基づく新しい \textbf{pro}mpt \textbf{tu}ning を提案する。
同時に、"[MASK]"の下に隠された異なる層が、多くの異なるデータセットの分類モデルにどのように影響するかを調査する。
最後に、私たちの \textbf{protum} は、時間消費の少ない継続的事前トレーニングの後、微調整よりもずっと優れたパフォーマンスを達成できることがわかりました。
我々のモデルは,NLPにおける大規模モデルの実用化を促進する。
関連論文リスト
- Semformer: Transformer Language Models with Semantic Planning [18.750863564495006]
次世代の予測は、現在のニューラルネットワークモデルの主要なコンポーネントである。
本稿では,応答のセマンティックプランニングを明示的にモデル化したトランスフォーマー言語モデルのトレーニング手法であるSemformerを紹介する。
論文 参考訳(メタデータ) (2024-09-17T12:54:34Z) - Empowering Character-level Text Infilling by Eliminating Sub-Tokens [34.37743927032878]
FIM-SEは"Fill-In-the-Middle"の略で、開始文字と終了文字の制約がある。
本稿では,FIM-SEについて紹介する。
論文 参考訳(メタデータ) (2024-05-27T12:21:48Z) - TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction [61.295716741720284]
TokenUnifyは、ランダムトークン予測、次のトークン予測、次のトークン予測を統合する新しい事前学習手法である。
TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。
このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットとなっている。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - Object Recognition as Next Token Prediction [99.40793702627396]
オブジェクト認識を次のトークン予測として提案する。
その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
論文 参考訳(メタデータ) (2023-12-04T18:58:40Z) - LabelPrompt: Effective Prompt-based Learning for Relation Classification [31.291466190218912]
本稿では,関係分類タスクのための新しいプロンプト型学習手法であるLabelPromptを提案する。
GIVE MODEL CHOICES!'の直感により、まず関係ラベルを表すための追加トークンを定義し、これらのトークンを意味的初期化を伴う動詞としてみなす。
そして、予測関係と与えられた実体との整合性を緩和するために、コントラスト学習を伴うエンティティ認識モジュールを実装した。
論文 参考訳(メタデータ) (2023-02-16T04:06:25Z) - Nonparametric Masked Language Modeling [113.71921977520864]
既存の言語モデル(LM)は、有限語彙上のソフトマックスでトークンを予測する。
NPMは,このソフトマックスを参照コーパス内の各フレーズの非パラメトリック分布に置き換える最初の非パラメトリックマスク付き言語モデルである。
NPMは、コントラスト目的と全コーパス検索に対するバッチ内近似で効率的に訓練することができる。
論文 参考訳(メタデータ) (2022-12-02T18:10:42Z) - RetroMAE v2: Duplex Masked Auto-Encoder For Pre-Training
Retrieval-Oriented Language Models [3.4523793651427113]
本稿では,[] と通常のトークンの両方のコンテキスト化埋め込みにおける意味表現能力の向上を目標とする,二重マスク付き自動エンコーダ DupMAE を提案する。
DupMAEは単純だが経験的競争力があり、デコードコストが小さいため、モデルの表現能力と転送可能性に大きく貢献する。
論文 参考訳(メタデータ) (2022-11-16T08:57:55Z) - FCM: Forgetful Causal Masking Makes Causal Language Models Better
Zero-Shot Learners [139.6321017962092]
本稿では,計算コストを増大させることなく,大規模言語モデルの性能を大幅に向上させる簡単な手法を提案する。
我々のキーとなる観察は、ランダムに選択された過去のトークンをマスクアウトした次のトークン予測タスクを実行することで、学習された表現の品質を向上させることができることである。
実験結果から,本手法は多種多様なタスクに対して,PALMのゼロおよび少数ショット性能も向上することが示された。
論文 参考訳(メタデータ) (2022-10-24T17:46:57Z) - Token Dropping for Efficient BERT Pretraining [33.63507016806947]
本研究では,変圧器モデルの事前学習を高速化する簡易かつ効果的な「トーケンドロップ」手法を開発した。
我々は既に組み込まれているマスキング言語モデリング(MLM)の損失を利用して、計算オーバーヘッドのない重要でないトークンを識別する。
この単純なアプローチは、BERTの事前トレーニングコストを25%削減し、標準の下流タスクで同様の微調整性能を実現する。
論文 参考訳(メタデータ) (2022-03-24T17:50:46Z) - COCO-LM: Correcting and Contrasting Text Sequences for Language Model
Pretraining [59.169836983883656]
COCO-LMは、チャレンジングなエラーとテキストシーケンスの変換によって言語モデルを事前学習する新しい自己監視学習フレームワークです。
COCO-LMは、オリジナルのテキストシーケンスでマスク&予測トークンに補助言語モデルを採用しています。
分析の結果,coco-lmのアドバンテージは,困難なトレーニング信号,よりコンテキスト化されたトークン表現,正規化されたシーケンス表現であることがわかった。
論文 参考訳(メタデータ) (2021-02-16T22:24:29Z) - ELECTRA: Pre-training Text Encoders as Discriminators Rather Than
Generators [108.3381301768299]
Masked Language Modeling (MLM) は、BERT のような事前学習手法で、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。
代用トークン検出という,より効率的な事前学習タスクを提案する。
論文 参考訳(メタデータ) (2020-03-23T21:17:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。