論文の概要: DynaMo: Accelerating Language Model Inference with Dynamic Multi-Token Sampling
- arxiv url: http://arxiv.org/abs/2405.00888v1
- Date: Wed, 1 May 2024 22:17:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-03 18:23:47.340619
- Title: DynaMo: Accelerating Language Model Inference with Dynamic Multi-Token Sampling
- Title(参考訳): DynaMo:動的マルチトークンサンプリングによる言語モデル推論の高速化
- Authors: Shikhar Tuli, Chi-Heng Lin, Yen-Chang Hsu, Niraj K. Jha, Yilin Shen, Hongxia Jin,
- Abstract要約: ネット推論時間を短縮するマルチトークン予測言語モデルであるDynaMoを提案する。
我々のモデルは、予測された関節確率分布に対する信頼度に基づいて複数のトークンを予測する。
また、テキスト生成品質を向上させるために、推定結合確率を高める新しい方法を提案する。
- 参考スコア(独自算出の注目度): 51.055580277828
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional language models operate autoregressively, i.e., they predict one token at a time. Rapid explosion in model sizes has resulted in high inference times. In this work, we propose DynaMo, a suite of multi-token prediction language models that reduce net inference times. Our models $\textit{dynamically}$ predict multiple tokens based on their confidence in the predicted joint probability distribution. We propose a lightweight technique to train these models, leveraging the weights of traditional autoregressive counterparts. Moreover, we propose novel ways to enhance the estimated joint probability to improve text generation quality, namely co-occurrence weighted masking and adaptive thresholding. We also propose systematic qualitative and quantitative methods to rigorously test the quality of generated text for non-autoregressive generation. One of the models in our suite, DynaMo-7.3B-T3, achieves same-quality generated text as the baseline (Pythia-6.9B) while achieving 2.57$\times$ speed-up with only 5.87% and 2.67% parameter and training time overheads, respectively.
- Abstract(参考訳): 従来の言語モデルは自動回帰的、すなわち1つのトークンを1度に予測する。
モデルサイズの急激な爆発は、高い推測時間をもたらした。
本研究では,ネット推測時間を削減するマルチトークン予測言語モデルであるDynaMoを提案する。
我々のモデル $\textit{dynamically}$ は、予測された関節確率分布に対する信頼度に基づいて複数のトークンを予測する。
本稿では,従来の自己回帰モデルの重みを生かして,これらのモデルを訓練するための軽量な手法を提案する。
さらに,テキスト生成品質,すなわち共起重みマスキングと適応しきい値処理を改善するために,推定結合確率を高める新しい手法を提案する。
また、非自己回帰生成のための生成したテキストの品質を厳格にテストするための系統的定性的かつ定量的手法を提案する。
我々のスイートの1つのモデルであるDynaMo-7.3B-T3はベースライン(Pythia-6.9B)と同じ品質のテキストを生成し、それぞれ5.87%と2.67%のパラメータで2.57$\times$スピードアップを達成した。
関連論文リスト
- Faster Language Models with Better Multi-Token Prediction Using Tensor Decomposition [5.575078692353885]
本稿では, 精度を損なうことなくサンプリング効率を向上させることを目的とした, 変圧器のマルチトークン予測のための新しいモデルを提案する。
階数=r$標準確率分解に一般化することにより、複数のトークンを同時に予測する改良されたモデルを開発する。
論文 参考訳(メタデータ) (2024-10-23T11:06:36Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Extrapolating Multilingual Understanding Models as Multilingual
Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。
少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:33:21Z) - Scaling Laws for Generative Mixed-Modal Language Models [103.25737824352949]
個別のモダリティの貢献とそれら間の相互作用を統一する混合モードスケーリング法則について報告する。
具体的には、過去のユニモーダルスケーリング法則に対する加算項として、データとモデルサイズによる最適シナジーと競合を明示的にモデル化する。
また,訓練中に観察される4つの経験的現象,例えば,自然にモダリティを交互に交互に行う創発的コーディネート・アセット・スタイル・トレーニングを見出した。
論文 参考訳(メタデータ) (2023-01-10T00:20:06Z) - Non-Autoregressive Text Generation with Pre-trained Language Models [40.50508206201288]
BERTはNAGモデルのバックボーンとして利用でき、性能を大幅に向上できることを示す。
バニラNAGモデルの2つの共通問題を緩和するメカニズムを考案する。
本稿では,出力長を事前に推定できる新しいデコード戦略である ratio-first を提案する。
論文 参考訳(メタデータ) (2021-02-16T15:30:33Z) - LAVA NAT: A Non-Autoregressive Translation Model with Look-Around
Decoding and Vocabulary Attention [54.18121922040521]
非自己回帰翻訳(NAT)モデルは、1つの前方通過で複数のトークンを生成する。
これらのNATモデルは、しばしば多重性の問題に悩まされ、重複トークンや欠落トークンを生成する。
本稿では,この問題を解決するための新しい方法として,Look-Around(LA)戦略とVocabulary Attention(VA)メカニズムを提案する。
論文 参考訳(メタデータ) (2020-02-08T04:11:03Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。