論文の概要: Headless Language Models: Learning without Predicting with Contrastive
Weight Tying
- arxiv url: http://arxiv.org/abs/2309.08351v1
- Date: Fri, 15 Sep 2023 12:20:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 14:52:48.391862
- Title: Headless Language Models: Learning without Predicting with Contrastive
Weight Tying
- Title(参考訳): ヘッドレス言語モデル: 重み付けによる予測を伴わない学習
- Authors: Nathan Godey, \'Eric de la Clergerie, Beno\^it Sagot
- Abstract要約: 言語モデルの自己教師付き事前訓練は通常、広範囲なトークン語彙上の確率分布を予測する。
確率予測から脱却し、コンストラッシブウェイトタイリング(CWT)を介してコントラッシブな方法で入力埋め込みを再構築することに焦点を当てた革新的な手法を提案する。
同様の計算予算における古典的 LM と比較して, 有意な +1.6 GLUE スコアの増加と, 顕著な +2.7 LAMBADA の精度向上が観察された。
- 参考スコア(独自算出の注目度): 0.11510009152620666
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Self-supervised pre-training of language models usually consists in
predicting probability distributions over extensive token vocabularies. In this
study, we propose an innovative method that shifts away from probability
prediction and instead focuses on reconstructing input embeddings in a
contrastive fashion via Constrastive Weight Tying (CWT). We apply this approach
to pretrain Headless Language Models in both monolingual and multilingual
contexts. Our method offers practical advantages, substantially reducing
training computational requirements by up to 20 times, while simultaneously
enhancing downstream performance and data efficiency. We observe a significant
+1.6 GLUE score increase and a notable +2.7 LAMBADA accuracy improvement
compared to classical LMs within similar compute budgets.
- Abstract(参考訳): 言語モデルの自己教師付き事前訓練は通常、広範囲なトークン語彙上の確率分布を予測する。
本研究では, 確率予測から脱却し, コンストラクション・ウェイト・タイリング (cwt) によるコントラスト的手法を用いて, 入力埋め込みの再構成に焦点をあてる革新的な手法を提案する。
本手法は,単言語と多言語の両方の文脈において,ヘッドレス言語モデルの事前学習に適用する。
提案手法は,ダウンストリーム性能とデータ効率を同時に向上させながら,最大20倍のトレーニング計算要求を大幅に削減する。
同様の計算予算における古典的 LM と比較して,有意な +1.6 GLUE スコアの増加と,顕著な +2.7 LAMBADA の精度向上が観察された。
関連論文リスト
- Tokenizer Choice For LLM Training: Negligible or Crucial? [30.33170936148845]
24個の単言語LLMと多言語LLMを学習し,トークン化選択が大規模言語モデル(LLM)の下流性能に与える影響について検討した。
トークン化ツールの選択は、ダウンストリームのパフォーマンスとトレーニングコストに大きな影響を与えます。
ヨーロッパの5言語で訓練された多言語トークン化器は,英語と比較して語彙サイズが3倍に大きくなることが示唆された。
論文 参考訳(メタデータ) (2023-10-12T22:44:19Z) - Cross-Lingual Supervision improves Large Language Models Pre-training [36.932380291416365]
自己教師型言語モデリング目標と教師型機械翻訳目標の混合による事前学習により,文脈内学習能力のよいモデルが得られることを示す。
事前学習は非常に資源集約的なプロセスであり、2つの目標間の最良の混合比のグリッド探索は違法にコストがかかるため、事前学習時に学習するためのシンプルで効果的な戦略を提案する。
論文 参考訳(メタデータ) (2023-05-19T16:14:07Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task
Models [54.184609286094044]
補助モデルと付加データなしで問題を解くための学習パラダイムとして,ノイズエントロピー正規化(NoiER)を提案する。
提案手法は,従来の微調整モデルと比較して平均55%改善した。
論文 参考訳(メタデータ) (2021-08-29T06:58:28Z) - Bilingual Alignment Pre-training for Zero-shot Cross-lingual Transfer [33.680292990007366]
本稿では,埋め込みの整合性を向上し,ゼロショットの言語間転送性能を向上させることを目的とする。
本稿では,従来の知識として統計アライメント情報を用いて,バイリンガル単語予測を導出するアライメント言語モデル(Alignment Language Model, AlignLM)を提案する。
その結果、AlignLMはMLQAおよびXNLIデータセット上でゼロショット性能を大幅に改善できることが示された。
論文 参考訳(メタデータ) (2021-06-03T10:18:43Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。