論文の概要: Language Modelling via Learning to Rank
- arxiv url: http://arxiv.org/abs/2110.06961v1
- Date: Wed, 13 Oct 2021 18:03:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 12:54:47.704680
- Title: Language Modelling via Learning to Rank
- Title(参考訳): ランクへの学習による言語モデリング
- Authors: Arvid Frydenlund, Gagandeep Singh, Frank Rudzicz
- Abstract要約: 言語モデリングを多ラベル構造化予測タスクとみなす。
トップ$kのランクを避けるために、事前訓練されたLM(GPT-2, BERT, Born-Again)モデルを用いて生成する。
また、N$-gramsを用いて、事前学習したLMを必要とせずにランクを生成する非確率的な教師を作成する方法を開発した。
- 参考スコア(独自算出の注目度): 15.88754612997207
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We consider language modelling (LM) as a multi-label structured prediction
task by re-framing training from solely predicting a single ground-truth word
to ranking a set of words which could continue a given context. To avoid
annotating top-$k$ ranks, we generate them using pre-trained LMs: GPT-2, BERT,
and Born-Again models. This leads to a rank-based form of knowledge
distillation (KD). We also develop a method using $N$-grams to create a
non-probabilistic teacher which generates the ranks without the need of a
pre-trained LM.
We confirm the hypotheses that we can treat LMing as a ranking task and that
we can do so without the use of a pre-trained LM. We show that rank-based KD
generally improves perplexity (PPL), often with statistical significance, when
compared to Kullback-Leibler-based KD. Surprisingly, given the simplicity of
the method, $N$-grams act as competitive teachers and achieve similar
performance as using either BERT or a Born-Again model teachers. GPT-2 always
acts as the best teacher, though, and using it and a Transformer-XL student on
Wiki-02, rank-based KD reduces a cross-entropy baseline from 65.27 to 55.94 and
against a KL-based KD of 56.70.
- Abstract(参考訳): 言語モデリング(LM)は,1つの接頭辞を単に予測することから,与えられた文脈を継続できる単語群をランク付けすることまで,トレーニングを再フレーミングすることで,多ラベル構造予測タスクであると考えている。
GPT-2, BERT, ボルン・アゲインモデルなど, 事前学習したLMを用いて, 上位k$のアノテートを避ける。
これは、ランクベースの知識蒸留(KD)に繋がる。
また,事前に学習したlmを必要とせず,確率的でない教師を作成できる手法を,$n$-grams を用いて開発した。
我々は、lmingをランキングタスクとして扱うことができ、事前訓練されたlmを使わずにできるという仮説を確認した。
ランクベースKDは一般にパープレキシティ(PPL)を向上し,Kulback-LeiblerベースのKDと比較して統計的に有意な傾向を示す。
驚いたことに、この方法の単純さを考えると、$N$-gramsは競争力のある教師として機能し、BERTやボルン・アゲインモデルの教師と同様のパフォーマンスを達成する。
GPT-2 は常に最高の教師として機能し、Wiki-02 の Transformer-XL の学生と併用すると、ランクベースの KD は 65.27 から 55.94 に、KLベースの KD は 56.70 に減少する。
関連論文リスト
- Instruction Pre-Training: Language Models are Supervised Multitask Learners [115.95022434390181]
本稿では,事前学習言語モデル(LM)に対して,命令応答対を用いた大規模生コーパスを付加するフレームワークを提案する。
実験では,40以上のタスクカテゴリをカバーする2億の命令応答ペアを合成し,インストラクション事前学習の有効性を検証する。
論文 参考訳(メタデータ) (2024-06-20T16:55:33Z) - Knowledge Distillation vs. Pretraining from Scratch under a Fixed (Computation) Budget [2.53740603524637]
LM事前トレーニングのスケーリング法則は、より小さなモデルがより多くのデータでトレーニングされた場合、より大きなモデルとのギャップを埋める可能性があることを示唆している。
マスク言語モデリング(MLM)のいくつかのKD戦略に対して,スクラッチからの事前学習を公平な実験で比較した。
固定計算予算の下でデータを繰り返す必要がある場合、KDはスクラッチから事前学習よりも大きな利得が得られることがわかった。
論文 参考訳(メタデータ) (2024-04-30T07:40:35Z) - Instruction Distillation Makes Large Language Models Efficient Zero-shot
Rankers [56.12593882838412]
本稿では,文書のランク付けのための新しい命令蒸留手法を提案する。
まず、複雑な命令で効果的なペアワイズ手法を用いて文書をランク付けし、簡単な指示で教師の予測をポイントワイズ方式で抽出する。
提案手法は,MonoT5のような既存の教師付きメソッドの性能を超越し,最先端のゼロショット手法と同等である。
論文 参考訳(メタデータ) (2023-11-02T19:16:21Z) - MiniLLM: Knowledge Distillation of Large Language Models [112.93051247165089]
知識蒸留(KD)は,大規模言語モデル(LLM)の高い計算要求を低減させる,有望な手法である。
より小さな言語モデルにLPMを蒸留するKD手法を提案する。
提案手法は,120Mから13Bのパラメータを持つ異なるモデルファミリに対してスケーラブルである。
論文 参考訳(メタデータ) (2023-06-14T14:44:03Z) - Towards Understanding and Improving Knowledge Distillation for Neural Machine Translation [59.31690622031927]
この知識は,教師のトップ1の予測から得られたものである。
我々はtextbfTop-1 textbfInformation textbfEnhanced textbfKnowledge textbfDistillation (TIE-KD) という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-14T08:23:03Z) - Tuning Language Models as Training Data Generators for
Augmentation-Enhanced Few-Shot Learning [30.65315081964461]
プレトレーニング言語モデル(PLM)を用いて、異なる視点から数発の学習を学習する。
まず,数発のサンプルに対して自己回帰型PLMをチューニングし,それをジェネレータとして使用して,大量の新規トレーニングサンプルを合成する。
我々のアプローチであるFewGenは、GLUEベンチマークの7つの分類タスクに対して、既存の数ショット学習方法よりも総合的に優れた結果が得られる。
論文 参考訳(メタデータ) (2022-11-06T06:46:47Z) - Do we need Label Regularization to Fine-tune Pre-trained Language
Models? [26.525537961062824]
コンピュータビジョン文学では、KDがラベル正規化技術であることを示すことにより、教師ネットワークの必要性を精査する。
この研究は、異なるラベル正規化手法と、より小さなPLMネットワークの微調整を改善するために実際に必要なものかどうかを考察する。
論文 参考訳(メタデータ) (2022-05-25T01:26:31Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - P^3 Ranker: Mitigating the Gaps between Pre-training and Ranking
Fine-tuning with Prompt-based Learning and Pre-finetuning [38.60274348013499]
我々は、事前学習と微調整の2つのミスマッチを特定し、研究する。
これらのギャップを軽減するために,事前学習型,プロンプト学習型,前調整型ニューラルランクラー(P3ランクラー)を提案する。
MS MARCO と Robust04 の実験では、P3 Ranker が数発のランキングで優れた性能を示した。
論文 参考訳(メタデータ) (2022-05-04T04:23:29Z) - L2R2: Leveraging Ranking for Abductive Reasoning [65.40375542988416]
学習システムの帰納的推論能力を評価するために,帰納的自然言語推論タスク(alpha$NLI)を提案する。
新たな$L2R2$アプローチは、Learning-to-rankフレームワークの下で提案されている。
ARTデータセットの実験は、公開リーダボードの最先端に到達します。
論文 参考訳(メタデータ) (2020-05-22T15:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。