論文の概要: When Attention Meets Fast Recurrence: Training Language Models with
Reduced Compute
- arxiv url: http://arxiv.org/abs/2102.12459v1
- Date: Wed, 24 Feb 2021 18:39:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-25 13:43:31.756252
- Title: When Attention Meets Fast Recurrence: Training Language Models with
Reduced Compute
- Title(参考訳): 注意が素早く繰り返される: 計算量を減らしたトレーニング言語モデル
- Authors: Tao Lei
- Abstract要約: 我々は、最先端のモデリング能力とトレーニング効率を示す、オプションで組み込まれた繰り返しユニットであるSRU++を紹介する。
本モデルは, 2.5x-10倍のトレーニング時間とコストをトップパフォーマンストランスフォーマモデルと比較し, 高いパープレキシティとbpc(bits-per-character)を得る。
- 参考スコア(独自算出の注目度): 7.8495640617618365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have become increasingly difficult to train because of
the required computation time and cost. In this work, we present SRU++, a
recurrent unit with optional built-in attention that exhibits state-of-the-art
modeling capacity and training efficiency. On standard language modeling
benchmarks such as enwik8 and Wiki-103 datasets, our model obtains better
perplexity and bits-per-character (bpc) while using 2.5x-10x less training time
and cost compared to top-performing Transformer models. Our results reaffirm
that attention is not all we need and can be complementary to other sequential
modeling modules. Moreover, fast recurrence with little attention can be a
leading model architecture.
- Abstract(参考訳): 計算時間とコストが要求されるため,大規模言語モデルのトレーニングがますます困難になっている。
本研究では、最先端のモデリング能力とトレーニング効率を発揮できるオプションの組み込み型リカレントユニットであるSRU++について紹介する。
enwik8 や Wiki-103 などの標準言語モデリングベンチマークでは、上位性能の Transformer モデルと比較して、トレーニング時間とコストを2.5x-10倍削減しつつ、より複雑なビット・パー・キャラクタ(bpc)が得られる。
我々の結果は、注意が必要なすべてではなく、他のシーケンシャルなモデリングモジュールと相補的であることを再確認する。
さらに、ほとんど注意を払わない高速反復は、主要なモデルアーキテクチャである。
関連論文リスト
- Scalable Ensembling For Mitigating Reward Overoptimisation [24.58937616758007]
ヒューマンフィードバックからの強化学習は、強力な命令追従モデルのための言語モデリングにおける大幅な進歩を可能にした。
ポリシーが学習したプロキシ"報酬モデルに過度に適合する傾向にあるため、これらのモデルの整合性は依然として急進的な課題である。
論文 参考訳(メタデータ) (2024-06-03T05:46:53Z) - One-stop Training of Multiple Capacity Models [74.87789190840527]
本稿では,高容量・低容量モデルとの共同学習のためのワンストップトレーニングフレームワークを提案する。
複数のキャパシティモデルをスクラッチから個別に訓練する知識蒸留とは異なり、我々の手法は異なるキャパシティモデルからの監督を同時に統合する。
論文 参考訳(メタデータ) (2023-05-23T13:44:09Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Co-training Improves Prompt-based Learning for Large Language Models [17.37761261683756]
本研究では、ラベルなしデータを用いて、協調学習がプロンプトベース学習の性能を向上させることを実証する。
協調学習により、元のプロンプトモデルを改善することができ、同時に、より小さく、ダウンストリームなタスク固有モデルを学ぶことができる。
論文 参考訳(メタデータ) (2022-02-02T00:48:26Z) - Low-Rank Constraints for Fast Inference in Structured Models [110.38427965904266]
この研究は、大規模構造化モデルの計算とメモリの複雑さを低減するための単純なアプローチを示す。
言語モデリング,ポリフォニック・ミュージック・モデリング,教師なし文法帰納法,ビデオ・モデリングのためのニューラルパラメータ構造モデルを用いた実験により,我々の手法は大規模状態空間における標準モデルの精度と一致することを示した。
論文 参考訳(メタデータ) (2022-01-08T00:47:50Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z) - Hybrid modeling: Applications in real-time diagnosis [64.5040763067757]
我々は、機械学習にインスパイアされたモデルと物理モデルを組み合わせた、新しいハイブリッドモデリングアプローチの概要を述べる。
このようなモデルをリアルタイム診断に利用しています。
論文 参考訳(メタデータ) (2020-03-04T00:44:57Z) - Train Large, Then Compress: Rethinking Model Size for Efficient Training
and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。
まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。
これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文 参考訳(メタデータ) (2020-02-26T21:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。