論文の概要: Better & Faster Large Language Models via Multi-token Prediction
- arxiv url: http://arxiv.org/abs/2404.19737v1
- Date: Tue, 30 Apr 2024 17:33:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 13:16:41.286095
- Title: Better & Faster Large Language Models via Multi-token Prediction
- Title(参考訳): マルチトークン予測によるより優れた高速な大規模言語モデル
- Authors: Fabian Gloeckle, Badr Youbi Idrissi, Baptiste Rozière, David Lopez-Paz, Gabriel Synnaeve,
- Abstract要約: GPTやLlamaのような大規模言語モデルは、次のトーケン予測損失で訓練される。
複数の未来のトークンを同時に予測するための言語モデルをトレーニングすることで、より高いサンプル効率が得られることを提案する。
- 参考スコア(独自算出の注目度): 29.067271500844928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models such as GPT and Llama are trained with a next-token prediction loss. In this work, we suggest that training language models to predict multiple future tokens at once results in higher sample efficiency. More specifically, at each position in the training corpus, we ask the model to predict the following n tokens using n independent output heads, operating on top of a shared model trunk. Considering multi-token prediction as an auxiliary training task, we measure improved downstream capabilities with no overhead in training time for both code and natural language models. The method is increasingly useful for larger model sizes, and keeps its appeal when training for multiple epochs. Gains are especially pronounced on generative benchmarks like coding, where our models consistently outperform strong baselines by several percentage points. Our 13B parameter models solves 12 % more problems on HumanEval and 17 % more on MBPP than comparable next-token models. Experiments on small algorithmic tasks demonstrate that multi-token prediction is favorable for the development of induction heads and algorithmic reasoning capabilities. As an additional benefit, models trained with 4-token prediction are up to 3 times faster at inference, even with large batch sizes.
- Abstract(参考訳): GPTやLlamaのような大規模言語モデルは、次のトーケン予測損失で訓練される。
本研究では,複数の未来のトークンを一度に予測する言語モデルをトレーニングすることで,より高いサンプル効率が得られることを示唆する。
具体的には、トレーニングコーパスの各位置において、n個の独立した出力ヘッドを用いて次のn個のトークンを予測し、共有モデルトランク上で動作させる。
マルチトークン予測を補助訓練タスクとして考慮し、コードモデルと自然言語モデルの両方のトレーニング時間にオーバーヘッドを伴わずに、ダウンストリーム能力の向上を計測する。
この方法は、より大きなモデルサイズに対してますます有用であり、複数のエポックのトレーニングにおいて、その魅力を保っている。
ゲインは、コーディングのような生成ベンチマークで特に顕著で、当社のモデルは、強いベースラインを数パーセント上回っています。
我々の13Bパラメータモデルは、HumanEvalでは12%、MBPPでは17%の問題を解決する。
小さなアルゴリズムタスクの実験では、誘導ヘッドとアルゴリズム推論能力の開発にマルチトークン予測が適していることが示されている。
さらに利点として、4-token予測でトレーニングされたモデルは、大きなバッチサイズであっても、推論で最大3倍高速になる。
関連論文リスト
- Faster Language Models with Better Multi-Token Prediction Using Tensor Decomposition [5.575078692353885]
本稿では, 精度を損なうことなくサンプリング効率を向上させることを目的とした, 変圧器のマルチトークン予測のための新しいモデルを提案する。
階数=r$標準確率分解に一般化することにより、複数のトークンを同時に予測する改良されたモデルを開発する。
論文 参考訳(メタデータ) (2024-10-23T11:06:36Z) - Rho-1: Not All Tokens Are What You Need [132.31428897792114]
以前の言語モデル事前学習手法は、すべてのトレーニングトークンに次トーケン予測損失を均一に適用した。
最初の分析では,異なるトークンの損失パターンを明らかにするために,言語モデルのトークンレベルのトレーニングダイナミクスについて検討した。
コーパス内のすべての次のトークンを予測することを学ぶ従来のLMとは異なり、Rho-1は選択言語モデリング(SLM)を採用している。
Rho-1は9つの数学タスクで最大30%のショット精度で絶対的に改善する。
論文 参考訳(メタデータ) (2024-04-11T17:52:01Z) - Language models scale reliably with over-training and on downstream tasks [121.69867718185125]
スケーリング法則は、高価なトレーニング実行を引き出すための有用なガイドである。
しかし、現在の研究と言語モデルがどのように訓練されているかには差がある。
対照的に、スケーリング法則は主に推論における損失を予測するが、モデルは通常下流のタスクのパフォーマンスで比較される。
論文 参考訳(メタデータ) (2024-03-13T13:54:00Z) - MiLe Loss: a New Loss for Mitigating the Bias of Learning Difficulties in Generative Language Models [40.992566245706996]
トークンによる学習難易度を緩和するMiLe Loss関数を提案する。
我々は468M,1.2B,6.7Bパラメータの異なるスケールで生成言語モデルを訓練する。
実験により、提案されたMiLe Lossを組み込んだモデルが下流ベンチマークで一貫したパフォーマンス向上を達成できることが明らかになった。
論文 参考訳(メタデータ) (2023-10-30T13:33:21Z) - Language models are better than humans at next-token prediction [3.092847651108554]
次のトークン予測では、言語モデルが人間より優れているか悪いかは明らかではない。
我々は、次の予測で、GPT3-Adaのような比較的小さな言語モデルよりも、人間は一貫して非言語的であることに気付きました。
論文 参考訳(メタデータ) (2022-12-21T17:58:01Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - ELECTRA: Pre-training Text Encoders as Discriminators Rather Than
Generators [108.3381301768299]
Masked Language Modeling (MLM) は、BERT のような事前学習手法で、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。
代用トークン検出という,より効率的な事前学習タスクを提案する。
論文 参考訳(メタデータ) (2020-03-23T21:17:42Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。