論文の概要: Arctic Long Sequence Training: Scalable And Efficient Training For Multi-Million Token Sequences
- arxiv url: http://arxiv.org/abs/2506.13996v1
- Date: Mon, 16 Jun 2025 20:52:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.245456
- Title: Arctic Long Sequence Training: Scalable And Efficient Training For Multi-Million Token Sequences
- Title(参考訳): 北極のロングシーケンストレーニング:マルチミリオントーケンシークエンスのためのスケーラブルで効率的なトレーニング
- Authors: Stas Bekman, Samyam Rajbhandari, Michael Wyatt, Jeff Rasley, Tunji Ruwase, Zhewei Yao, Aurick Qiao, Yuxiong He,
- Abstract要約: 長いシーケンスは、RAG、長いドキュメントの要約、マルチモーダリティなど、アプリケーションにとって重要なものです。
ALSTはMetaのLlama 8Bモデルのトレーニングをサポートし、単一のH100 GPUで500Kシーケンス長、単一の8xH100 GPUノードで3.7M、4ノードクラスタで15M以上である。
ALSTはHFモデルと完全に互換性があり、Deepspeed経由でオープンソース化されている。
- 参考スコア(独自算出の注目度): 29.525575444016066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long sequences are critical for applications like RAG, long document summarization, multi-modality, etc., and modern LLMs, like Llama 4 Scout, support max sequence length of up to 10 million tokens. However, outside of enterprise labs, long sequence training is challenging for the AI community with limited system support in the open-source space. Out-of-box, even on a modern NVIDIA H100 80GB GPU cluster, training Llama 8B model with sequence over 32K runs out of memory on a basic Hugging Face (HF) model due to two reasons: i) LLM training workloads are not optimized to fully leverage a single GPU memory, ii) existing solutions for leveraging multiple GPU memory are not easily available to HF models, making long sequence training inaccessible. We address this with Arctic Long Sequence Training (ALST). It offers a combination of attention-agnostic single GPU and multi-GPU memory optimizations, that enables it to support out-of-box training of multi-million sequence length for a wide variety of HF models. ALST supports training Meta's Llama 8B model with 500K sequence length on a single H100 GPU, 3.7M on a single 8xH100 GPU node, and over 15M on a 4 node cluster, an increase of over 400x compared to the 32K baseline for the latter. ALST is fully compatible with HF models and open-sourced via Deepspeed https://www.deepspeed.ai/tutorials/ulysses-alst-sequence-pallellism/ and Arctic Training https://github.com/snowflakedb/ArcticTraining/blob/main/projects/sequence-parallelism/README.md.
- Abstract(参考訳): ロングシーケンスは、RAG、ロングドキュメント要約、マルチモダリティなどのようなアプリケーションや、Llama 4 Scoutのような現代のLLMでは、最大1000万トークンのシーケンス長をサポートする。
しかし、エンタープライズラボ以外では、オープンソース分野でのシステムサポートが限られているAIコミュニティにとって、長いシーケンストレーニングは難しい。
最新のNVIDIA H100 80GB GPUクラスタでも、32K以上のシーケンスでLlama 8Bモデルをトレーニングすると、2つの理由から、基本的なHugging Face(HF)モデルでメモリが枯渇する。
i) LLMトレーニングワークロードは、単一のGPUメモリを完全に活用するように最適化されていない。
二 複数のGPUメモリを利用する既存のソリューションは、HFモデルでは容易に利用できないため、長いシーケンストレーニングは利用できない。
アークティックロングシーケンストレーニング(ALST)でこの問題に対処する。
注目に依存しない単一GPUとマルチGPUメモリの最適化を組み合わせることで、さまざまなHFモデルに対して、数百万のシーケンス長のアウト・オブ・ボックストレーニングをサポートすることができる。
ALSTは、単一のH100 GPU上で500Kシーケンス長、単一の8xH100 GPUノードで3.7M、4ノードクラスタで15M以上、MetaのLlama 8Bモデルのトレーニングをサポートする。
ALSTはHFモデルと完全に互換性があり、Deepspeed https://www.deepspeed.ai/tutorials/ulysses-alst-sequence-pallellism/およびArctic Training https://github.com/snowflakedb/ArcticTraining/blob/main/projects/sequence-parallelism/README.mdを介してオープンソース化されている。
関連論文リスト
- PRIMA.CPP: Speeding Up 70B-Scale LLM Inference on Low-Resource Everyday Home Clusters [36.52497630960292]
primaは分散推論システムで、CPU/GPU、低RAM/VRAM、Wi-Fi、クロスプラットフォームのサポートを組み合わせて、毎日のホームデバイスで70Bスケールのモデルを実行する。
プリマはラマ、エクソ、アンドラマを30B+モデルで上回り、メモリ圧力は6%以下である。
これにより、Llama 3、DeepSeek R1、Qwen 2.5、QwQなどのフロンティア30B-70Bモデルがホームアシスタントに導入され、高度なAIが個人に対して真にアクセスできるようになる。
論文 参考訳(メタデータ) (2025-04-07T13:46:21Z) - Democratizing AI: Open-source Scalable LLM Training on GPU-based Supercomputers [65.35142508909892]
AxoNNと呼ばれる,スケーラブルでポータブルなオープンソースフレームワークで実装された新しい4次元ハイブリッド並列アルゴリズムを提案する。
本稿では,Frontier 上で AxoNN を用いて405ビリオンパラメータ LLM の微調整を行う。
論文 参考訳(メタデータ) (2025-02-12T06:05:52Z) - LongVILA: Scaling Long-Context Visual Language Models for Long Videos [86.28679075537089]
LongVILAは、Long-contextビジュアル言語モデルのためのフルスタックソリューションである。
LongVILAは、VILAのビデオフレーム数を8から2048に効率的に拡張し、6,000フレーム(100万枚以上のトークン)のビデオニードル・イン・ア・ヘイスタックで99.8%の精度を達成した。
論文 参考訳(メタデータ) (2024-08-19T17:48:08Z) - SUBLLM: A Novel Efficient Architecture with Token Sequence Subsampling for LLM [24.65339628772433]
SUBLLMは、サブサンプリング、アップサンプリング、バイパスモジュールを組み込むことで、コアデコーダのみのフレームワークを拡張する革新的なアーキテクチャである。
トレーニング中、SUBLLMはスピードを26%向上し、GPU毎にメモリを10GB削減する。
推論では、スピードを最大37%向上し、1GPUあたりのメモリを1GB削減する。
論文 参考訳(メタデータ) (2024-06-03T16:43:04Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - DISTFLASHATTN: Distributed Memory-efficient Attention for Long-context LLMs Training [82.06732962485754]
FlashAttentionは、1つのGPU上でのトレーニングトランスフォーマーベースの大規模言語モデル(LLM)において、2次ピークメモリの使用を線形に削減する。
本研究では,長期LLM学習に最適化されたメモリ効率の高い注意機構であるDisTFLASHATTNを紹介する。
最近のRing AttentionやDeepSpeed-Ulyssesと比較して、1.67xと1.26 - 1.88xのスピードアップを実現している。
論文 参考訳(メタデータ) (2023-10-05T03:47:57Z) - Towards Memory-Efficient Training for Extremely Large Output Spaces --
Learning with 500k Labels on a Single Commodity GPU [2.3224617218247134]
巨大な出力空間(数百万ラベルまで)の分類問題では、最後の層は膨大な量のメモリを必要とする。
スパース接続を使用することで、メモリ要求が大幅に削減されるが、モデルの性能が大幅に低下する可能性がある。
提案手法は,わずか4GBのGPU上で670,000ラベルのデータセットにスケール可能であることを示す。
論文 参考訳(メタデータ) (2023-06-06T14:44:52Z) - ZeRO-Infinity: Breaking the GPU Memory Wall for Extreme Scale Deep
Learning [9.322987670900778]
ZeRO-Infinityは、現在の世代のGPUクラスタでトレーニングするための数十から数百兆のパラメータを持つモデルに適合できます。
1つのNVIDIA DGX-2ノードで1兆のパラメータモデルを微調整できるため、大きなモデルの方がアクセスしやすい。
論文 参考訳(メタデータ) (2021-04-16T02:22:12Z) - Efficient Large-Scale Language Model Training on GPU Clusters [19.00915720435389]
大規模な言語モデルは、様々なタスクに最先端の精度をもたらす。
メモリ容量は限られており、大きなモデルを単一のGPUに収めることは不可能である。
これらのモデルのトレーニングに必要な計算操作の数は、非現実的な長いトレーニング時間をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-04-09T16:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。