Fugu-MT 論文翻訳(概要): The N-Grammys: Accelerating Autoregressive Inference with Learning-Free Batched Speculation

論文の概要: The N-Grammys: Accelerating Autoregressive Inference with Learning-Free Batched Speculation

arxiv url: http://arxiv.org/abs/2411.03786v1
Date: Wed, 06 Nov 2024 09:23:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:44.911833
Title: The N-Grammys: Accelerating Autoregressive Inference with Learning-Free Batched Speculation
Title（参考訳）: N-Grammys:学習自由バッチ推論による自己回帰推論の高速化
Authors: Lawrence Stewart, Matthew Trager, Sujan Kumar Gonugondla, Stefano Soatto,
Abstract要約: 投機的復号化は、より小さなドラフトモデルによって生成されたトークンを並列に検証することで、言語モデルの自己回帰生成を高速化することを目的としている。単純な戦略の組み合わせは、異なるタスクに対して大きな推論スピードアップを達成できることを示す。
参考スコア（独自算出の注目度）: 48.52206677611072
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Speculative decoding aims to speed up autoregressive generation of a language model by verifying in parallel the tokens generated by a smaller draft model.In this work, we explore the effectiveness of learning-free, negligible-cost draft strategies, namely $N$-grams obtained from the model weights and the context. While the predicted next token of the base model is rarely the top prediction of these simple strategies, we observe that it is often within their top-$k$ predictions for small $k$. Based on this, we show that combinations of simple strategies can achieve significant inference speedups over different tasks. The overall performance is comparable to more complex methods, yet does not require expensive preprocessing or modification of the base model, and allows for seamless `plug-and-play' integration into pipelines.
Abstract（参考訳）: 投機的復号化は,より小さなドラフトモデルによって生成されたトークンを並列に検証することにより,言語モデルの自己回帰生成を高速化することを目的としている。ベースモデルの予測された次のトークンは、これらの単純な戦略の最上位の予測ではめったにないが、小さな$k$の予測では、上位の$k$にあることが多い。これに基づいて、単純な戦略の組み合わせは、異なるタスクに対して大きな推論スピードアップを達成することができることを示す。全体的なパフォーマンスは、より複雑なメソッドに匹敵するが、ベースモデルの高価な前処理や修正は必要とせず、パイプラインへのシームレスな‘plug-and-play’統合を可能にする。

関連論文リスト

Saliency-driven Dynamic Token Pruning for Large Language Models [32.903622070917194]
塩分駆動型動的トケンプルーニング(SDTP) 軽量なサリエンシ駆動予測モジュールは、各トークンの重要度をその隠れ状態で推定するように設計されている。ランキングに基づく最適化手法を提案し,評価スコアと予測重要スコアのランキングばらつきを最小化する。
論文参考訳（メタデータ） (2025-04-06T15:15:07Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
Jakiro: Boosting Speculative Decoding with Decoupled Multi-Head via MoE [15.003006630308517]
投機的復号(SD)は、より小さなドラフトモデルを用いて複数のトークンを予測することで、大きな言語モデル推論を加速する。本稿では,専門家の混在(Mixture of Experts, MoE)を利用したJakiroを提案する。提案手法は予測精度を大幅に向上し,推論高速化を実現する。
論文参考訳（メタデータ） (2025-02-10T09:24:06Z)
Faster Language Models with Better Multi-Token Prediction Using Tensor Decomposition [5.575078692353885]
本稿では, 精度を損なうことなくサンプリング効率を向上させることを目的とした, 変圧器のマルチトークン予測のための新しいモデルを提案する。階数=r$標準確率分解に一般化することにより、複数のトークンを同時に予測する改良されたモデルを開発する。
論文参考訳（メタデータ） (2024-10-23T11:06:36Z)
How to Leverage Demonstration Data in Alignment for Large Language Model? A Self-Imitation Learning Perspective [17.956310574300765]
本稿では,新しい自己アニメーション学習フレームワーク(textbfGSIL$)を紹介する。大規模な言語モデルとオフラインのデモデータとを効果的に効率的に整列する。 $textbfGSIL$一貫性があり、多くの挑戦的なベンチマークでベースラインをはるかに上回っている。
論文参考訳（メタデータ） (2024-10-14T02:21:29Z)
u-$μ$P: The Unit-Scaled Maximal Update Parametrization [4.275373946090221]
我々は、u-mu$Pという新しいスキームを提示し、ユニットスケーリングと組み合わせることで、$mu$Pを改善する。 2つのテクニックには自然な親和性がある。$mu$Pはアクティベーションのスケールがモデルサイズに依存しないことを保証するとともに、ユニットスケーリングはアクティベーション、ウェイト、勾配が1つのスケールでトレーニングを開始することを保証します。
論文参考訳（メタデータ） (2024-07-24T17:58:42Z)
Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2～3倍の高速化を実現した。
論文参考訳（メタデータ） (2024-07-22T18:00:00Z)
Efficient Training of Language Models with Compact and Consistent Next Token Distributions [23.312920633391837]
我々は, コーパスを崩壊した$n$-gramの分布で事前集約することで, より良いモデルをより高速に訓練できることを示す。我々の近似は、より大きなデータセットやモデルへのゲインのスケーラビリティを促進する。
論文参考訳（メタデータ） (2024-07-03T05:40:41Z)
PartIR: Composing SPMD Partitioning Strategies for Machine Learning [1.1250231074374903]
NNパーティショニングシステムの設計であるPartIRについて述べる。 PartIRは書き直しに対する漸進的なアプローチに重点を置いており、ハードウェアとランタイムに依存しない。予測可能性,表現性,ピーク性能に到達する能力を示すために,いくつかの異なるモデルでPartIRを評価した。
論文参考訳（メタデータ） (2024-01-20T10:30:31Z)
PanGu-$\pi$: Enhancing Language Model Architectures via Nonlinearity Compensation [97.78045712375047]
大規模言語モデル(LLM)のための新しい効率的なモデルアーキテクチャを提案する。そこで,PanGu-$pi$-7Bは,約10%の推論速度を持つベンチマークに匹敵する性能が得られることを示す。さらに,PanGu-$pi$-7Bを金融法と法律の高価値領域に導入し,実践的応用のためにYunShanというLLMを開発した。
論文参考訳（メタデータ） (2023-12-27T11:49:24Z)
FABind: Fast and Accurate Protein-Ligand Binding [127.7790493202716]
$mathbfFABind$はポケット予測とドッキングを組み合わせたエンドツーエンドモデルで、正確で高速なタンパク質-リガンド結合を実現する。提案モデルでは,既存手法と比較して有効性と効率性に強い利点が示される。
論文参考訳（メタデータ） (2023-10-10T16:39:47Z)
Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文参考訳（メタデータ） (2021-10-09T21:13:48Z)
LAVA NAT: A Non-Autoregressive Translation Model with Look-Around Decoding and Vocabulary Attention [54.18121922040521]
非自己回帰翻訳(NAT)モデルは、1つの前方通過で複数のトークンを生成する。これらのNATモデルは、しばしば多重性の問題に悩まされ、重複トークンや欠落トークンを生成する。本稿では,この問題を解決するための新しい方法として,Look-Around(LA)戦略とVocabulary Attention(VA)メカニズムを提案する。
論文参考訳（メタデータ） (2020-02-08T04:11:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。