論文の概要: Big Little Transformer Decoder
- arxiv url: http://arxiv.org/abs/2302.07863v1
- Date: Wed, 15 Feb 2023 18:55:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-16 14:03:04.962985
- Title: Big Little Transformer Decoder
- Title(参考訳): 大きな小さなトランスフォーマデコーダ
- Authors: Sehoon Kim, Karttikeya Mangalam, Jitendra Malik, Michael W. Mahoney,
Amir Gholami, Kurt Keutzer
- Abstract要約: Big Little Decoder (BiLD) は、幅広いテキスト生成アプリケーションの推論効率と遅延を改善するフレームワークである。
NVIDIA Titan Xp GPUでは、パフォーマンス低下なしに最大2.13倍の高速化を実現しています。
私たちのフレームワークは、モデルアーキテクチャのトレーニングや修正を一切必要としないので、完全にプラグアンドプレイされています。
- 参考スコア(独自算出の注目度): 109.32803091057818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent emergence of Large Language Models based on the Transformer
architecture has enabled dramatic advancements in the field of Natural Language
Processing. However, these models have long inference latency, which limits
their deployment, and which makes them prohibitively expensive for various
real-time applications. The inference latency is further exacerbated by
autoregressive generative tasks, as models need to run iteratively to generate
tokens sequentially without leveraging token-level parallelization. To address
this, we propose Big Little Decoder (BiLD), a framework that can improve
inference efficiency and latency for a wide range of text generation
applications. The BiLD framework contains two models with different sizes that
collaboratively generate text. The small model runs autoregressively to
generate text with a low inference cost, and the large model is only invoked
occasionally to refine the small model's inaccurate predictions in a
non-autoregressive manner. To coordinate the small and large models, BiLD
introduces two simple yet effective policies: (1) the fallback policy that
determines when to hand control over to the large model; and (2) the rollback
policy that determines when the large model needs to review and correct the
small model's inaccurate predictions. To evaluate our framework across
different tasks and models, we apply BiLD to various text generation scenarios
encompassing machine translation on IWSLT 2017 De-En and WMT 2014 De-En,
summarization on CNN/DailyMail, and language modeling on WikiText-2. On an
NVIDIA Titan Xp GPU, our framework achieves a speedup of up to 2.13x without
any performance drop, and it achieves up to 2.38x speedup with only ~1 point
degradation. Furthermore, our framework is fully plug-and-play as it does not
require any training or modifications to model architectures. Our code will be
open-sourced.
- Abstract(参考訳): トランスフォーマーアーキテクチャに基づく大規模言語モデルの近年の出現は、自然言語処理の分野で劇的な進歩を可能にしている。
しかし、これらのモデルには長い推論遅延があり、デプロイメントが制限されるため、様々なリアルタイムアプリケーションにとって非常にコストがかかる。
モデルがトークンレベルの並列化を生かさずに連続的にトークンを生成するために反復的に実行する必要があるため、推論の遅延は自己回帰的な生成タスクによってさらに悪化する。
そこで本研究では,幅広いテキスト生成アプリケーションに対して,推論効率と遅延性を向上するフレームワークであるBig Little Decoder (BiLD)を提案する。
BiLDフレームワークには、テキストを共同生成する大きさの異なる2つのモデルが含まれている。
小モデルは、推論コストの低いテキストを生成するために自己回帰的に動作し、大モデルは、非自己回帰的な方法で小モデルの不正確な予測を洗練するために時々のみ呼び出される。
小型モデルと大規模モデルの調整には,(1)大モデルにいつ制御を委譲するかを決定するフォールバックポリシ,(2)大モデルの不正確な予測をいつレビューし修正する必要があるかを決定するロールバックポリシ,という2つの単純な効果的なポリシーを導入する。
IWSLT 2017 と WMT 2014 De-En の機械翻訳,CNN/DailyMail の要約,WikiText-2 の言語モデリングなど,さまざまなテキスト生成シナリオに BiLD を適用する。
NVIDIA Titan Xp GPUでは,パフォーマンス低下を伴わずに最大2.13倍の高速化を実現し,最大2.38倍の高速化を実現した。
さらに、私たちのフレームワークは、モデルアーキテクチャのトレーニングや修正を必要としないので、完全にプラグインアンドプレイです。
私たちのコードはオープンソースになります。
関連論文リスト
- Two are better than one: Context window extension with multi-grained self-injection [111.1376461868317]
SharedLLMは、多粒度コンテキスト圧縮とクエリ対応情報検索の設計哲学に基づく新しいアプローチである。
本研究では,テキストチャンクの多粒度コンテキスト情報を効率的にエンコードし,保存し,検索するための木構造データ構造を提案する。
論文 参考訳(メタデータ) (2024-10-25T06:08:59Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Direct Alignment of Draft Model for Speculative Decoding with Chat-Fine-Tuned LLMs [11.245862832561176]
投機的復号化による推論アクセラレーションを実現するためには、高品質なドラフトモデルをトレーニングする必要がある。
我々は、Llama 2 Chat Drafter 115M、Llama 2 Chat 7B以上のドラフトモデル、オリジナルサイズの1.64%しか持たないLlama 2 Chat Drafter 115Mを訓練する。
Llama 2 Chat Dr After 115M with speculative decoding は最大2.3ブロック効率と2.4$times$ speed-upを実現している。
論文 参考訳(メタデータ) (2024-02-29T19:55:06Z) - Tandem Transformers for Inference Efficient LLMs [49.75726447408795]
これらの問題に対処するために,新しいアーキテクチャであるタンデム変換器を導入する。
このアーキテクチャは、小さな自己回帰モデルとブロックモードで動作する大きなモデルを組み合わせたものである。
PaLM2プレトレーニングデータセットでは、PaLM2-BisonとPaLM2-Geckoのタンデムが次点予測精度を3.3%改善している。
論文 参考訳(メタデータ) (2024-02-13T18:24:08Z) - Quantized Transformer Language Model Implementations on Edge Devices [1.2979415757860164]
Bidirectional Representations from Transformers (BERT) のような大規模なトランスフォーマーベースモデルは自然言語処理(NLP)アプリケーションに広く利用されている。
これらのモデルは最初、数百万のパラメータを持つ大きなコーパスで事前訓練され、下流のNLPタスクのために微調整される。
これらの大規模モデルの大きな制限の1つは、大きなモデルサイズと推論遅延の増加のため、リソース制限されたデバイスにデプロイできないことである。
論文 参考訳(メタデータ) (2023-10-06T01:59:19Z) - Tractable Control for Autoregressive Language Generation [82.79160918147852]
本稿では,自動回帰テキスト生成モデルに語彙制約を課すために,トラクタブル確率モデル(TPM)を提案する。
本稿では,GeLaToが制約付きテキスト生成のための挑戦的ベンチマークにおいて,最先端のパフォーマンスを実現することを示す。
我々の研究は、大きな言語モデルを制御するための新しい道を開き、さらに表現力のあるTPMの開発を動機付けます。
論文 参考訳(メタデータ) (2023-04-15T00:19:44Z) - CoreLM: Coreference-aware Language Model Fine-Tuning [0.0]
我々は、現在の事前学習言語モデルのアーキテクチャを拡張した、CoreLMというファインチューニングフレームワークを提案する。
我々は、モデルの文脈空間外で利用可能な情報を作成し、計算コストのごく一部について、よりよい言語モデルをもたらす。
提案モデルでは, GPT2 と比較した場合, GUMBY と LAMBDADA のデータセットのパープレキシティが低くなる。
論文 参考訳(メタデータ) (2021-11-04T08:44:31Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z) - Abstractive Text Summarization based on Language Model Conditioning and
Locality Modeling [4.525267347429154]
BERT言語モデルに基づいてTransformerベースのニューラルモデルをトレーニングする。
さらに,BERTウィンドウサイズよりも長いテキストのチャンクワイズ処理が可能なBERTウィンドウ方式を提案する。
我々のモデルの結果は、CNN/Daily Mailデータセットのベースラインと最先端モデルと比較される。
論文 参考訳(メタデータ) (2020-03-29T14:00:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。