論文の概要: Why Do Pretrained Language Models Help in Downstream Tasks? An Analysis
of Head and Prompt Tuning
- arxiv url: http://arxiv.org/abs/2106.09226v1
- Date: Thu, 17 Jun 2021 03:31:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 16:07:50.930765
- Title: Why Do Pretrained Language Models Help in Downstream Tasks? An Analysis
of Head and Prompt Tuning
- Title(参考訳): 学習済みの言語モデルはなぜ下流タスクに役立つのか?
頭とプロンプトのチューニングに関する一検討
- Authors: Colin Wei, Sang Michael Xie, Tengyu Ma
- Abstract要約: 本稿では,事前学習タスクと下流タスクをテキストの潜在変数生成モデルに関連付ける分析フレームワークを提案する。
HMMの特定の非退化条件下では、単純な分類ヘッドがダウンストリームタスクを解くことができ、また、迅速なチューニングにより、より弱い非退化条件で下流の保証を得ることができ、さらに、メモリ拡張HMMの回復保証がバニラHMMよりも強いことを示す。
- 参考スコア(独自算出の注目度): 66.44344616836158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained language models have achieved state-of-the-art performance when
adapted to a downstream NLP task. However, theoretical analysis of these models
is scarce and challenging since the pretraining and downstream tasks can be
very different. We propose an analysis framework that links the pretraining and
downstream tasks with an underlying latent variable generative model of text --
the downstream classifier must recover a function of the posterior distribution
over the latent variables. We analyze head tuning (learning a classifier on top
of the frozen pretrained model) and prompt tuning in this setting. The
generative model in our analysis is either a Hidden Markov Model (HMM) or an
HMM augmented with a latent memory component, motivated by long-term
dependencies in natural language. We show that 1) under certain non-degeneracy
conditions on the HMM, simple classification heads can solve the downstream
task, 2) prompt tuning obtains downstream guarantees with weaker non-degeneracy
conditions, and 3) our recovery guarantees for the memory-augmented HMM are
stronger than for the vanilla HMM because task-relevant information is easier
to recover from the long-term memory. Experiments on synthetically generated
data from HMMs back our theoretical findings.
- Abstract(参考訳): 事前訓練された言語モデルは、下流のNLPタスクに適応して最先端のパフォーマンスを達成した。
しかしながら、これらのモデルの理論的解析は、事前訓練と下流のタスクがかなり異なる可能性があるため、希少かつ困難である。
本稿では,事前学習タスクと下流タスクをテキストの潜在変数生成モデルに関連付ける解析フレームワークを提案する。
我々は,ヘッドチューニング(凍結事前学習モデル上での分類器の学習)を分析し,この設定で即時チューニングを行う。
我々の分析における生成モデルは、HMM(Hidden Markov Model)またはHMM(Hidden Markov Model)のどちらかであり、自然言語の長期依存によって動機付けられた潜在記憶成分を付加したものである。
HMMの特定の非退化条件下では、単純な分類ヘッドがダウンストリームタスクを解くことができ、2)迅速なチューニングは、より弱い非退化条件で下流の保証を得ることができ、3) タスク関連情報が長期記憶から回復しやすいため、メモリ拡張HMMの回復保証はバニラHMMよりも強いことを示す。
hmmsを用いた合成データ実験の結果を裏付ける。
関連論文リスト
- Investigating the Impact of Model Complexity in Large Language Models [3.7919508292745676]
事前訓練された微調整パラダイムに基づく大規模言語モデル(LLM)は、自然言語処理タスクの解決において重要な役割を担っている。
本稿では,自己回帰 LLM に着目し,HMM (Hidden Markov Models) を用いたモデリングを提案する。
論文 参考訳(メタデータ) (2024-10-01T13:53:44Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Continual Referring Expression Comprehension via Dual Modular
Memorization [133.46886428655426]
Referring Expression (REC) は、自然言語で記述された対象のイメージ領域をローカライズすることを目的としている。
既存のRECアルゴリズムは、モデルへのデータ供給のトレーニングを前もって行うと強く仮定する。
本稿では、入ってくるタスクのストリーム上でモデルが学習するRECの新しい設定である連続参照表現(CREC)を提案する。
学習済みの知識を忘れずに,スクラッチから繰り返し再学習することなく,逐次的タスクのモデルを継続的に改善するために,デュアルモジュール記憶法という効果的なベースライン手法を提案する。
論文 参考訳(メタデータ) (2023-11-25T02:58:51Z) - Can recurrent neural networks learn process model structure? [0.2580765958706854]
本稿では,適合度,精度,一般化のために,変分に基づく再サンプリングとカスタムメトリクスを組み合わせた評価フレームワークを提案する。
LSTMは、単純化されたプロセスデータであっても、プロセスモデル構造を学ぶのに苦労する可能性があることを確認します。
また,トレーニング中にLSTMで見られる情報量が減少すると,一般化や精度の低下が生じた。
論文 参考訳(メタデータ) (2022-12-13T08:40:01Z) - From Cloze to Comprehension: Retrofitting Pre-trained Masked Language
Model to Pre-trained Machine Reader [130.45769668885487]
Pre-trained Machine Reader (PMR) は、ラベル付きデータを取得することなく、MLMを事前学習機械読解(MRC)モデルに適合させる新しい手法である。
提案したPMRを構築するために,多量の汎用および高品質なMRCスタイルのトレーニングデータを構築した。
PMRは、MRCの定式化における様々な抽出および分類タスクに対処するための統一モデルとして機能する可能性がある。
論文 参考訳(メタデータ) (2022-12-09T10:21:56Z) - Robust Classification using Hidden Markov Models and Mixtures of
Normalizing Flows [25.543231171094384]
我々は,隠れマルコフモデル(HMM)の状態遷移と,隠れたHMMの状態に対するニューラルネットワークに基づく確率分布を組み合わせた生成モデルを用いる。
音声認識への応用におけるNMM-HMM分類器の堅牢性の改善を検証する。
論文 参考訳(メタデータ) (2021-02-15T00:40:30Z) - Scaling Hidden Markov Language Models [118.55908381553056]
この研究は、HMMを言語モデリングデータセットに拡張するという課題を再考する。
本研究では,HMMを大規模状態空間に拡張する手法を提案する。
論文 参考訳(メタデータ) (2020-11-09T18:51:55Z) - On Minimum Word Error Rate Training of the Hybrid Autoregressive
Transducer [40.63693071222628]
ハイブリッド自己回帰変換器(HAT)の最小単語誤り率(MWER)訓練について検討する。
約3万時間のトレーニングデータを用いた実験から,MWERトレーニングがHATモデルの精度を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-23T21:16:30Z) - Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks [133.93803565077337]
検索強化生成モデルは、事前訓練されたパラメトリックメモリと非パラメトリックメモリを組み合わせて言語生成を行う。
我々は、RAGモデルが、最先端パラメトリックのみのセク2セックベースラインよりも、より具体的で、多様で、現実的な言語を生成することを示す。
論文 参考訳(メタデータ) (2020-05-22T21:34:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。