論文の概要: EE-LLM: Large-Scale Training and Inference of Early-Exit Large Language
Models with 3D Parallelism
- arxiv url: http://arxiv.org/abs/2312.04916v2
- Date: Thu, 1 Feb 2024 11:58:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 18:53:09.664311
- Title: EE-LLM: Large-Scale Training and Inference of Early-Exit Large Language
Models with 3D Parallelism
- Title(参考訳): EE-LLM:3次元並列処理を用いた大規模言語モデルの大規模学習と推定
- Authors: Yanxi Chen, Xuchen Pan, Yaliang Li, Bolin Ding, Jingren Zhou
- Abstract要約: 大規模学習のためのフレームワークであるEE-LLMについて述べる。
Megatron-LMをベースとして、EE-LLMは様々なアルゴリズムの革新と早期終了に適したパフォーマンス最適化を実装している。
解析的および実証的研究により、EE-LLMは無視可能な計算オーバーヘッドで優れたトレーニング効率を達成することが示された。
- 参考スコア(独自算出の注目度): 75.1814102438065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present EE-LLM, a framework for large-scale training and inference of
early-exit large language models (LLMs). While recent works have shown
preliminary evidence for the efficacy of early exiting in accelerating LLM
inference, EE-LLM makes a foundational step towards scaling up early-exit LLMs
by supporting their training and inference with massive 3D parallelism. Built
upon Megatron-LM, EE-LLM implements a variety of algorithmic innovations and
performance optimizations tailored to early exiting, including a lightweight
method that facilitates backpropagation for the early-exit training objective
with pipeline parallelism, techniques of leveraging idle resources in the
original pipeline schedule for computation related to early-exit layers, and
two approaches of early-exit inference that are compatible with KV caching for
autoregressive generation. Our analytical and empirical study shows that EE-LLM
achieves great training efficiency with negligible computational overhead
compared to standard LLM training, as well as outstanding inference speedup
without compromising output quality. To facilitate further research and
adoption, we release EE-LLM at https://github.com/pan-x-c/EE-LLM.
- Abstract(参考訳): 本稿では,大規模学習のためのフレームワークであるEE-LLMについて述べる。
近年の研究では,LEM推論の早期終了の有効性を示す予備的な証拠が示されているが,EE-LLMは,大規模な3次元並列性によるトレーニングと推論を支援することにより,早期終了LSMのスケールアップに向けた基礎的な一歩である。
Megatron-LMをベースとして、EE-LLMは早期終了に適したアルゴリズムの革新とパフォーマンスの最適化を実装しており、パイプライン並列化による早期終了トレーニング目標のバックプロパゲーションを容易にする軽量な方法、初期の外部レイヤに関連する計算にアイドルリソースを活用する技術、自動回帰生成のためのKVキャッシュと互換性のある早期終了推論の2つのアプローチを含んでいる。
解析的および実証的研究により,EE-LLM は通常の LLM トレーニングに比べ,計算オーバーヘッドの無視によるトレーニング効率の向上と,出力品質を損なうことなく優れた推論高速化を実現していることが示された。
さらなる研究と採用を容易にするため、EE-LLMはhttps://github.com/pan-x-c/EE-LLM.comでリリースします。
関連論文リスト
- Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training [49.407311947143825]
マルチモーダル・ミックス・オブ・エキスパート構造を用いて視覚専門家の集合をシームレスに統合するモノリシックMLLMであるMono-InternVLを提案する。
また,Mono-InternVLの視覚能力,すなわち内因性視覚前訓練(EViP)を最大化するための革新的な事前学習戦略を提案する。
論文 参考訳(メタデータ) (2024-10-10T17:59:22Z) - SWIFT: On-the-Fly Self-Speculative Decoding for LLM Inference Acceleration [10.970637831760136]
投機的復号法(SD)は,大規模言語モデル(LLM)の推論を高速化するパラダイムとして広く用いられている。
本稿では,LLMの中間層を適応的に選択して推論時にスキップする,オンザフライの自己投機的復号アルゴリズムであるSWIFTを紹介する。
SWIFTは生成したテキストの元の分布を保ちながら1.3x-1.6xの高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-09T14:15:30Z) - Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。
固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。
当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文 参考訳(メタデータ) (2024-06-21T02:28:37Z) - Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - EE-Tuning: An Economical yet Scalable Solution for Tuning Early-Exit
Large Language Models [75.1814102438065]
EE-Tuningは、初期段階の大規模言語モデル(LLM)をトレーニング/チューニングするためのソリューションである
事前訓練された(そしておそらく微調整された)標準のLCMを、パラメータ効率のよい方法で調整された早期退避層で拡張する。
本実装は、広範囲な性能最適化により、優れたトレーニング効率を実現する。
論文 参考訳(メタデータ) (2024-02-01T11:39:04Z) - GrowLength: Accelerating LLMs Pretraining by Progressively Growing
Training Length [65.24730341801468]
本稿では,大規模言語モデルの事前学習プロセスを促進するために,Growlength'という,新しい,シンプルで効果的な手法を提案する。
本手法は,事前学習期間を通じてトレーニング期間を段階的に延長し,計算コストを軽減し,効率を向上する。
論文 参考訳(メタデータ) (2023-10-01T05:25:24Z) - FwdLLM: Efficient FedLLM using Forward Gradient [8.520892692833293]
FwdLLMはFedLLMの効率を高めるために設計された革新的なFLプロトコルである。
FwdLLMはバックプロパゲーション(BP)なしのトレーニング手法を採用しており、デバイスは摂動推論のみを実行する必要がある。
論文 参考訳(メタデータ) (2023-08-26T14:36:30Z) - Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM
Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。
本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。