論文の概要: Kangaroo: Lossless Self-Speculative Decoding via Double Early Exiting
- arxiv url: http://arxiv.org/abs/2404.18911v1
- Date: Mon, 29 Apr 2024 17:53:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 12:39:07.415766
- Title: Kangaroo: Lossless Self-Speculative Decoding via Double Early Exiting
- Title(参考訳): Kangaroo: ダブルアーリーエグジットによる無意味な自己投機的デコーディング
- Authors: Fangcheng Liu, Yehui Tang, Zhenhua Liu, Yunsheng Ni, Kai Han, Yunhe Wang,
- Abstract要約: 本稿では,固定された浅いサブネットワークを自己描画モデルとして利用する,新しい自己推論型デコーディングフレームワークであるEmphKangarooを提案する。
KangarooはSpec-Benchで最大1.68タイムのスピードアップを実現し、Medusa-1より88.7%低い追加パラメータ(591Mと比較して67M)で性能が向上した。
- 参考スコア(独自算出の注目度): 38.045569077630375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speculative decoding has demonstrated its effectiveness in accelerating the inference of large language models while maintaining a consistent sampling distribution. However, the conventional approach of training a separate draft model to achieve a satisfactory token acceptance rate can be costly. Drawing inspiration from early exiting, we propose a novel self-speculative decoding framework \emph{Kangaroo}, which uses a fixed shallow sub-network as a self-draft model, with the remaining layers serving as the larger target model. We train a lightweight and efficient adapter module on top of the sub-network to bridge the gap between the sub-network and the full model's representation ability. It is noteworthy that the inference latency of the self-draft model may no longer be negligible compared to the large model, necessitating strategies to increase the token acceptance rate while minimizing the drafting steps of the small model. To address this challenge, we introduce an additional early exiting mechanism for generating draft tokens. Specifically, we halt the small model's subsequent prediction during the drafting phase once the confidence level for the current token falls below a certain threshold. Extensive experiments on the Spec-Bench demonstrate the effectiveness of Kangaroo. Under single-sequence verification, Kangaroo achieves speedups up to $1.68\times$ on Spec-Bench, outperforming Medusa-1 with 88.7\% fewer additional parameters (67M compared to 591M). The code for Kangaroo is available at https://github.com/Equationliu/Kangaroo.
- Abstract(参考訳): 投機的復号化は,一貫したサンプリング分布を維持しながら,大規模言語モデルの推論を高速化する効果を示した。
しかし,従来は,トークン受入率を満足させるために,個別のドラフトモデルをトレーニングする手法はコストがかかる。
早期退避からインスピレーションを得た新しい自己投機的復号化フレームワーク \emph{Kangaroo} を提案する。これは固定された浅いサブネットワークを自己ドラフトモデルとして使用し、残りのレイヤがより大きなターゲットモデルとして機能する。
サブネットワーク上の軽量で効率的なアダプタモジュールをトレーニングし、サブネットワークとフルモデルの表現能力のギャップを埋める。
自己ドラフトモデルの推論遅延は,大規模モデルと比較して無視できない可能性があり,小型モデルの起草工程を最小化しながらトークンの受け入れ率を高める戦略が必要である。
この課題に対処するために、ドラフトトークンを生成するための早期終了メカニズムを導入します。
具体的には、現在のトークンの信頼レベルが一定の閾値以下になると、起草段階での小型モデルのその後の予測を停止する。
Spec-Benchに関する大規模な実験は、カンガルーの有効性を実証している。
シングルシーケンス検証では、KangarooはSpec-Bench上で最大1.68\times$を達成し、Medusa-1を88.7\%で上回り、追加パラメータ(591Mと比較して67M)を減らした。
Kangarooのコードはhttps://github.com/Equationliu/Kangaroo.comで公開されている。
関連論文リスト
- Efficient Training of Language Models with Compact and Consistent Next Token Distributions [23.312920633391837]
我々は, コーパスを崩壊した$n$-gramの分布で事前集約することで, より良いモデルをより高速に訓練できることを示す。
我々の近似は、より大きなデータセットやモデルへのゲインのスケーラビリティを促進する。
論文 参考訳(メタデータ) (2024-07-03T05:40:41Z) - TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction [61.295716741720284]
TokenUnifyは、ランダムトークン予測、次のトークン予測、次のトークン予測を統合する新しい事前学習手法である。
TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。
このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットとなっている。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - Online Speculative Decoding [34.987825705622555]
大規模言語モデルの推論を高速化するオンライン投機的復号法を導入する。
主なアイデアは、観測されたユーザクエリデータに対する(複数)ドラフトモデルを継続的に更新することである。
本稿では,知識蒸留に基づくオンライン投機的デコーディングのプロトタイプを開発し,合成データと実データの両方を用いて評価する。
論文 参考訳(メタデータ) (2023-10-11T04:03:42Z) - FABind: Fast and Accurate Protein-Ligand Binding [127.7790493202716]
$mathbfFABind$はポケット予測とドッキングを組み合わせたエンドツーエンドモデルで、正確で高速なタンパク質-リガンド結合を実現する。
提案モデルでは,既存手法と比較して有効性と効率性に強い利点が示される。
論文 参考訳(メタデータ) (2023-10-10T16:39:47Z) - SG-Former: Self-guided Transformer with Evolving Token Reallocation [89.9363449724261]
本稿では,適応的な微粒化を伴う効果的なグローバル自己注意に向けて,自己誘導変換器と呼ばれる新しいモデルを提案する。
我々は、細かな注意を得られるために、細かな領域により多くのトークンを割り当てる一方で、効率とグローバルな受容場と引き換えに、小さな領域に少ないトークンを割り当てる。
提案したSG-Formerは,最先端技術よりも優れたパフォーマンスを実現している。我々のベースサイズモデルは,ImageNet-1K上のTop-1精度,textbf51.2mAP BBAP on CoCo, textbf52.7mIoU
論文 参考訳(メタデータ) (2023-08-23T15:52:45Z) - Token Dropping for Efficient BERT Pretraining [33.63507016806947]
本研究では,変圧器モデルの事前学習を高速化する簡易かつ効果的な「トーケンドロップ」手法を開発した。
我々は既に組み込まれているマスキング言語モデリング(MLM)の損失を利用して、計算オーバーヘッドのない重要でないトークンを識別する。
この単純なアプローチは、BERTの事前トレーニングコストを25%削減し、標準の下流タスクで同様の微調整性能を実現する。
論文 参考訳(メタデータ) (2022-03-24T17:50:46Z) - Probing Model Signal-Awareness via Prediction-Preserving Input
Minimization [67.62847721118142]
モデルが正しい脆弱性信号を捕捉して予測する能力を評価する。
SAR(Signal-Aware Recall)と呼ばれる新しい指標を用いて,モデルの信号認識を計測する。
その結果,90年代以降のリコールから60年代以降のリコールは,新たな指標で大幅に減少した。
論文 参考訳(メタデータ) (2020-11-25T20:05:23Z) - Completely Self-Supervised Crowd Counting via Distribution Matching [92.09218454377395]
我々は,密集した群集数に対するトレーニングモデルに対する完全な自己超越的アプローチを提案する。
トレーニングに必要な入力は、大量の未ラベルの群衆画像以外は、群衆数に近似した上限である。
提案手法は,自然群集が逆伝播の誤り信号を生成するために利用可能な電力法分布に従うという考え方に富む。
論文 参考訳(メタデータ) (2020-09-14T13:20:12Z) - Learning to Faithfully Rationalize by Construction [36.572594249534866]
多くの設定において、モデルが特別な予測をした理由を理解することが重要である。
提案手法は, 構築による忠実な説明を提供する, このアプローチの簡易な変種を提案する。
自動評価と手動評価の両方において、この単純なフレームワークの変種はエンドツーエンドのアプローチよりも優れていることが分かる。
論文 参考訳(メタデータ) (2020-04-30T21:45:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。