論文の概要: On the Role of Bidirectionality in Language Model Pre-Training
- arxiv url: http://arxiv.org/abs/2205.11726v1
- Date: Tue, 24 May 2022 02:25:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-25 12:36:51.972474
- Title: On the Role of Bidirectionality in Language Model Pre-Training
- Title(参考訳): 言語モデル事前学習における双方向性の役割について
- Authors: Mikel Artetxe, Jingfei Du, Naman Goyal, Luke Zettlemoyer, Ves Stoyanov
- Abstract要約: 本研究では,次のトークン予測,テキスト入力,ゼロショットプライミング,微調整における双方向性の役割について検討する。
最大6.7Bのパラメータを持つモデルをトレーニングし、スケールで一貫性のある相違点を見つけます。
- 参考スコア(独自算出の注目度): 85.14614350372004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior work on language model pre-training has explored different
architectures and learning objectives, but differences in data, hyperparameters
and evaluation make a principled comparison difficult. In this work, we focus
on bidirectionality as a key factor that differentiates existing approaches,
and present a comprehensive study of its role in next token prediction, text
infilling, zero-shot priming and fine-tuning. We propose a new framework that
generalizes prior approaches, including fully unidirectional models like GPT,
fully bidirectional models like BERT, and hybrid models like CM3 and prefix LM.
Our framework distinguishes between two notions of bidirectionality
(bidirectional context and bidirectional attention) and allows us to control
each of them separately. We find that the optimal configuration is largely
application-dependent (e.g., bidirectional attention is beneficial for
fine-tuning and infilling, but harmful for next token prediction and zero-shot
priming). We train models with up to 6.7B parameters, and find differences to
remain consistent at scale. While prior work on scaling has focused on
left-to-right autoregressive models, our results suggest that this approach
comes with some trade-offs, and it might be worthwhile to develop very large
bidirectional models.
- Abstract(参考訳): 言語モデルの事前学習に関する以前の研究は、異なるアーキテクチャと学習目標を探求してきたが、データ、ハイパーパラメータ、そして評価の違いは原則的な比較を困難にしている。
本研究では,既存のアプローチを差別化するキーファクタとして双方向性に注目し,次のトークン予測,テキストインフィルディング,ゼロショットプライミング,微調整におけるその役割を包括的に研究する。
本稿では,GPTのような一方向モデル,BERTのような完全双方向モデル,CM3やLMといったハイブリッドモデルなど,従来のアプローチを一般化する新しいフレームワークを提案する。
フレームワークは双方向性(双方向コンテキストと双方向注意)の2つの概念を区別し,それぞれを個別に制御することができる。
最適な構成はほとんどアプリケーションに依存しない(例えば、双方向の注意は微調整やインフィルディングに有益であるが、次のトークン予測やゼロショットプライミングには有害である)。
最大6.7Bのパラメータを持つモデルをトレーニングし、スケールで一貫性のある相違点を見つけます。
これまでのスケーリング作業は、左から右への自己回帰モデルに重点を置いてきたが、このアプローチにはいくつかのトレードオフがあり、非常に大きな双方向モデルを開発する価値はあるかもしれない。
関連論文リスト
- Bidirectional Awareness Induction in Autoregressive Seq2Seq Models [47.82947878753809]
双方向認識誘導(BAI)は、ネットワーク内の要素のサブセットであるPivotsを利用して、自己回帰的制約を破ることなく双方向学習を行う訓練手法である。
特に,イメージキャプションでは2.4CIDEr,ニューラルマシン翻訳では4.96BLEU,テキスト要約では1.16ROUGEの増加が確認された。
論文 参考訳(メタデータ) (2024-08-25T23:46:35Z) - Co-guiding for Multi-intent Spoken Language Understanding [53.30511968323911]
本稿では,2つのタスク間の相互指導を実現するための2段階のフレームワークを実装した,コガイドネットと呼ばれる新しいモデルを提案する。
第1段階では,単一タスクによる教師付きコントラスト学習を提案し,第2段階ではコガイドによる教師付きコントラスト学習を提案する。
マルチインテリジェントSLU実験の結果,我々のモデルは既存のモデルよりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-22T08:06:22Z) - Improve Transformer Pre-Training with Decoupled Directional Relative
Position Encoding and Representation Differentiations [23.2969212998404]
トランスフォーマーに基づく事前学習言語モデルを再検討し、モデルの表現性を制限する可能性のある2つの問題を特定する。
既存の相対位置符号化モデルは、相対距離と方向という2つの異種情報を混同する。
事前学習型言語モデルを改善するための2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2022-10-09T12:35:04Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。