論文の概要: Pre-trained Token-replaced Detection Model as Few-shot Learner
- arxiv url: http://arxiv.org/abs/2203.03235v2
- Date: Tue, 21 Mar 2023 07:43:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 05:04:24.751416
- Title: Pre-trained Token-replaced Detection Model as Few-shot Learner
- Title(参考訳): ショット学習者としての事前学習トークン置換検出モデル
- Authors: Zicheng Li, Shoushan Li, Guodong Zhou
- Abstract要約: ELECTRAのような事前訓練されたトークン置換検出モデルを用いて,少数ショット学習のための新しい手法を提案する。
16のデータセットの体系的評価により,事前学習されたマスキング言語モデルを用いた数発の学習者よりも優れた結果が得られた。
- 参考スコア(独自算出の注目度): 31.40447168356879
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained masked language models have demonstrated remarkable ability as
few-shot learners. In this paper, as an alternative, we propose a novel
approach to few-shot learning with pre-trained token-replaced detection models
like ELECTRA. In this approach, we reformulate a classification or a regression
task as a token-replaced detection problem. Specifically, we first define a
template and label description words for each task and put them into the input
to form a natural language prompt. Then, we employ the pre-trained
token-replaced detection model to predict which label description word is the
most original (i.e., least replaced) among all label description words in the
prompt. A systematic evaluation on 16 datasets demonstrates that our approach
outperforms few-shot learners with pre-trained masked language models in both
one-sentence and two-sentence learning tasks.
- Abstract(参考訳): 事前訓練されたマスク付き言語モデルは、数発の学習者として顕著な能力を示した。
本稿では,ELECTRAのような事前訓練されたトークン置換検出モデルを用いた少数ショット学習手法を提案する。
このアプローチでは,分類や回帰タスクをトークン再配置検出問題として再編成する。
具体的には、まず各タスクのテンプレートとラベル記述語を定義し、それらを入力に入力して自然言語プロンプトを作成する。
次に,プリトレーニングされたトークン置換検出モデルを用いて,各ラベル記述語のうち,どのラベル記述語が最もオリジナル(すなわち,少なくとも置き換えられた)であるかをプロンプトで予測する。
16個のデータセットを体系的に評価した結果,事前学習されたマスキング言語モデルを用いて,単文学習と2文学習の両方において,本手法が少数の学習者よりも優れていることが示された。
関連論文リスト
- Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models [4.165536532090932]
言語モデルにおけるトークン作成とモデルトレーニングの切り離しにより、悪名高いSolidGoldMagikarpトークンのような特定の入力が不要なモデル動作を引き起こす。
本稿では,大規模言語モデルトークン化器の包括的解析,特に未学習トークンの検出を対象とする。
そこで我々は,トークン分析,モデルウェイトベースインジケータ,およびプロンプト技術の組み合わせにより,これらの問題のあるトークンを自動的に検出する新規かつ効果的な手法を開発した。
論文 参考訳(メタデータ) (2024-05-08T20:37:56Z) - Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation [82.5217996570387]
我々は,自動回帰テキスト・画像生成のための事前学習言語モデルを適用した。
事前訓練された言語モデルは限られた助けを提供する。
論文 参考訳(メタデータ) (2023-11-27T07:19:26Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Text2Model: Text-based Model Induction for Zero-shot Image Classification [38.704831945753284]
テキスト記述のみを用いてタスクに依存しない分類器を構築するという課題に対処する。
クラス記述を受信し,マルチクラスモデルを出力するハイパーネットワークを用いてゼロショット分類器を生成する。
本手法は,画像,ポイントクラウド,行動認識など,一連のゼロショット分類タスクにおいて,テキスト記述の範囲を用いて評価する。
論文 参考訳(メタデータ) (2022-10-27T05:19:55Z) - Prompting ELECTRA: Few-Shot Learning with Discriminative Pre-Trained
Models [43.7024573212373]
ELECTRAにプロンプトベースの数ショット学習を適用し,幅広いタスクにおいてマスキング言語モデルを上回る性能を示す。
本手法は,余分な計算オーバーヘッドを伴わずに,マルチトークン予測を含むタスクに容易に適応できる。
論文 参考訳(メタデータ) (2022-05-30T16:32:30Z) - Eliciting Knowledge from Pretrained Language Models for Prototypical
Prompt Verbalizer [12.596033546002321]
本稿では,事前学習された言語モデルから知識を抽出することに集中し,プロンプト学習のためのプロトタイプなプロンプト動詞化手法を提案する。
ゼロショット設定では、知識は事前訓練された言語モデルから手動で設計され、初期プロトタイプの埋め込みを形成する。
数ショット設定では、モデルは有意義で解釈可能なプロトタイプの埋め込みを学ぶように調整される。
論文 参考訳(メタデータ) (2022-01-14T12:04:37Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods
in Natural Language Processing [78.8500633981247]
本稿では,自然言語処理における新たなパラダイムにおける研究成果の探索と整理を行う。
入力xを取り込んで出力yをP(y|x)として予測するようにモデルを訓練する従来の教師付き学習とは異なり、プロンプトベースの学習は直接テキストの確率をモデル化する言語モデルに基づいている。
論文 参考訳(メタデータ) (2021-07-28T18:09:46Z) - COCO-LM: Correcting and Contrasting Text Sequences for Language Model
Pretraining [59.169836983883656]
COCO-LMは、チャレンジングなエラーとテキストシーケンスの変換によって言語モデルを事前学習する新しい自己監視学習フレームワークです。
COCO-LMは、オリジナルのテキストシーケンスでマスク&予測トークンに補助言語モデルを採用しています。
分析の結果,coco-lmのアドバンテージは,困難なトレーニング信号,よりコンテキスト化されたトークン表現,正規化されたシーケンス表現であることがわかった。
論文 参考訳(メタデータ) (2021-02-16T22:24:29Z) - $k$-Neighbor Based Curriculum Sampling for Sequence Prediction [22.631763991832862]
言語モデルにおける多段階予測は、トレーニングとテスト時間プロセスの相違により困難である。
教師方針を段階的に変更するカリキュラム学習に基づく手法であるtextitNearest-Neighbor Replacement Samplingを提案する。
本研究では, 2つの言語モデリングベンチマークについて報告し, スケジュールされたサンプリングと併用することで, 性能をさらに向上させる方法を提案する。
論文 参考訳(メタデータ) (2021-01-22T20:07:29Z) - Adversarial Transfer Learning for Punctuation Restoration [58.2201356693101]
句読点予測のためのタスク不変知識を学習するために,逆多タスク学習を導入する。
IWSLT2011データセットを用いて実験を行った。
論文 参考訳(メタデータ) (2020-04-01T06:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。