論文の概要: Training Ultra Long Context Language Model with Fully Pipelined Distributed Transformer
- arxiv url: http://arxiv.org/abs/2408.16978v1
- Date: Fri, 30 Aug 2024 02:44:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 16:39:11.549177
- Title: Training Ultra Long Context Language Model with Fully Pipelined Distributed Transformer
- Title(参考訳): 完全パイプライン分散変換器を用いた超長期言語モデルの学習
- Authors: Jinghan Yao, Sam Ade Jacobs, Masahiro Tanaka, Olatunji Ruwase, Aamir Shafi, Hari Subramoni, Dhabaleswar K. Panda,
- Abstract要約: 長い文脈能力を持つ大規模言語モデル(LLM)は、自然言語処理や計算生物学における複雑なタスクに不可欠なものである。
長文LLMを効率的に学習するためのFPDT(Fully Pipelined Distributed Transformer)を提案する。
GPTモデルとLlamaモデルでは、同じハードウェア上でトレーニング可能なシーケンス長が16倍に向上する。
- 参考スコア(独自算出の注目度): 1.728027753702854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) with long context capabilities are integral to complex tasks in natural language processing and computational biology, such as text generation and protein sequence analysis. However, training LLMs directly on extremely long contexts demands considerable GPU resources and increased memory, leading to higher costs and greater complexity. Alternative approaches that introduce long context capabilities via downstream finetuning or adaptations impose significant design limitations. In this paper, we propose Fully Pipelined Distributed Transformer (FPDT) for efficiently training long-context LLMs with extreme hardware efficiency. For GPT and Llama models, we achieve a 16x increase in sequence length that can be trained on the same hardware compared to current state-of-the-art solutions. With our dedicated sequence chunk pipeline design, we can now train 8B LLM with 2 million sequence length on only 4 GPUs, while also maintaining over 55% of MFU. Our proposed FPDT is agnostic to existing training techniques and is proven to work efficiently across different LLM models.
- Abstract(参考訳): 長い文脈能力を持つ大規模言語モデル(LLM)は、テキスト生成やタンパク質配列解析のような自然言語処理や計算生物学における複雑なタスクに不可欠なものである。
しかし、非常に長いコンテキストで直接LLMをトレーニングするには、相当なGPUリソースとメモリの増大が必要であり、それによってコストが上がり、複雑さが増す。
下流の微調整や適応によって長いコンテキスト機能を導入する別のアプローチは、重大な設計上の制限を課している。
本稿では,FPDT(Fully Pipelined Distributed Transformer)を提案する。
GPTモデルとLlamaモデルでは,現在の最先端ソリューションと比較して,同じハードウェア上でトレーニング可能なシーケンス長が16倍に向上する。
専用シーケンスチャンクパイプラインの設計により、MFUの55%以上を維持しながら、4GPUで200万シーケンス長の8B LLMをトレーニングできるようになりました。
提案するFPDTは,既存のトレーニング手法とは無関係であり,異なるLLMモデルに対して効率よく機能することが証明されている。
関連論文リスト
- Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - LongRecipe: Recipe for Efficient Long Context Generalization in Large Language Models [72.71150585370147]
LongRecipeは、大きな言語モデルのコンテキストウィンドウを拡張するための効率的なトレーニング戦略である。
トレーニング効率を維持しながら、長いシーケンス入力をシミュレートし、長距離依存に対するモデルの理解を大幅に改善する。
LongRecipeは、ターゲットのコンテキストウィンドウサイズの30%しか必要とせず、長いシーケンスを使うことができる。
論文 参考訳(メタデータ) (2024-08-31T17:19:30Z) - InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory [93.20588235940453]
本稿では,トレーニング不要なメモリベースのInfLLMを提案する。
InfLLMは、リモートコンテキストを追加のメモリユニットに格納し、トークン関連ユニットを注目するために効率的なメカニズムを使用する。
シーケンス長が$1,024$Kにスケールしても、InfLLMは依然として、長距離依存関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-02-07T06:50:42Z) - E^2-LLM: Efficient and Extreme Length Extension of Large Language Models [74.1254067728251]
本稿では,E2-LLMと呼ばれる大規模言語モデルに対して,1つの訓練手順と劇的にコストを削減した効率的な拡張手法を提案する。
複数のベンチマークデータセットに対する総合的な実験結果から,E2-LLMが長文課題に対する有効性を示した。
論文 参考訳(メタデータ) (2024-01-13T02:11:20Z) - Confidant: Customizing Transformer-based LLMs via Collaborative Edge
Training [18.526329975259483]
トランスフォーマーベースの大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて印象的な機能を示している。
コンピューティング、メモリ、エネルギー予算に制限のあるモバイルエッジデバイスにLSMをデプロイし、微調整することは困難である。
我々は,コモディティモバイルデバイス上での最先端のLCMをカスタマイズするためのマルチバックエンド協調学習フレームワークであるConfidantを提案する。
論文 参考訳(メタデータ) (2023-11-22T13:20:59Z) - CLEX: Continuous Length Extrapolation for Large Language Models [68.43814043853347]
大規模言語モデル(LLM)のためのCLEX(Continuous Longth Extrapolation)を提案する。
CLEXはコンテキストウィンドウを4倍または8倍のトレーニング長に拡張するが、性能は劣化しない。
我々のモデルは4k長でトレーニングされ、最先端のオープンソースモデルに対して最大32k長でトレーニングされた。
論文 参考訳(メタデータ) (2023-10-25T08:13:02Z) - DeepSpeed Ulysses: System Optimizations for Enabling Training of Extreme
Long Sequence Transformer Models [34.74093040678323]
我々は,高度に効率的かつスケーラブルなLDMトレーニングを実現するための,新しい,ポータブルで効果的な方法論であるDeepSpeed-Ulyssesを紹介した。
DeepSpeed-Ulyssesは、そのコアでシーケンス次元に沿って入力データを分割し、効率的なオール・ツー・オールの集合通信を用いて注意を払っている。
実験の結果、DeepSpeed-Ulyssesは既存のSOTAベースラインの4倍のシーケンス長で2.5倍高速であることがわかった。
論文 参考訳(メタデータ) (2023-09-25T20:15:57Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Layered gradient accumulation and modular pipeline parallelism: fast and
efficient training of large language models [0.0]
分散トレーニングのさまざまな構成について、可能な限り最短のトレーニング時間を分析します。
本稿では,最短トレーニング時間を半減する2つの新しい手法,テキスト層勾配蓄積法とテキストモジュールパイプライン並列化法を提案する。
論文 参考訳(メタデータ) (2021-06-04T19:21:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。