Fugu-MT 論文翻訳(概要): Arctic Long Sequence Training: Scalable And Efficient Training For Multi-Million Token Sequences

論文の概要: Arctic Long Sequence Training: Scalable And Efficient Training For Multi-Million Token Sequences

arxiv url: http://arxiv.org/abs/2506.13996v1
Date: Mon, 16 Jun 2025 20:52:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-18 17:34:59.245456
Title: Arctic Long Sequence Training: Scalable And Efficient Training For Multi-Million Token Sequences
Title（参考訳）: 北極のロングシーケンストレーニング:マルチミリオントーケンシークエンスのためのスケーラブルで効率的なトレーニング
Authors: Stas Bekman, Samyam Rajbhandari, Michael Wyatt, Jeff Rasley, Tunji Ruwase, Zhewei Yao, Aurick Qiao, Yuxiong He,
Abstract要約: 長いシーケンスは、RAG、長いドキュメントの要約、マルチモーダリティなど、アプリケーションにとって重要なものです。 ALSTはMetaのLlama 8Bモデルのトレーニングをサポートし、単一のH100 GPUで500Kシーケンス長、単一の8xH100 GPUノードで3.7M、4ノードクラスタで15M以上である。 ALSTはHFモデルと完全に互換性があり、Deepspeed経由でオープンソース化されている。
参考スコア（独自算出の注目度）: 29.525575444016066
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Long sequences are critical for applications like RAG, long document summarization, multi-modality, etc., and modern LLMs, like Llama 4 Scout, support max sequence length of up to 10 million tokens. However, outside of enterprise labs, long sequence training is challenging for the AI community with limited system support in the open-source space. Out-of-box, even on a modern NVIDIA H100 80GB GPU cluster, training Llama 8B model with sequence over 32K runs out of memory on a basic Hugging Face (HF) model due to two reasons: i) LLM training workloads are not optimized to fully leverage a single GPU memory, ii) existing solutions for leveraging multiple GPU memory are not easily available to HF models, making long sequence training inaccessible. We address this with Arctic Long Sequence Training (ALST). It offers a combination of attention-agnostic single GPU and multi-GPU memory optimizations, that enables it to support out-of-box training of multi-million sequence length for a wide variety of HF models. ALST supports training Meta's Llama 8B model with 500K sequence length on a single H100 GPU, 3.7M on a single 8xH100 GPU node, and over 15M on a 4 node cluster, an increase of over 400x compared to the 32K baseline for the latter. ALST is fully compatible with HF models and open-sourced via Deepspeed https://www.deepspeed.ai/tutorials/ulysses-alst-sequence-pallellism/ and Arctic Training https://github.com/snowflakedb/ArcticTraining/blob/main/projects/sequence-parallelism/README.md.
Abstract（参考訳）: ロングシーケンスは、RAG、ロングドキュメント要約、マルチモダリティなどのようなアプリケーションや、Llama 4 Scoutのような現代のLLMでは、最大1000万トークンのシーケンス長をサポートする。しかし、エンタープライズラボ以外では、オープンソース分野でのシステムサポートが限られているAIコミュニティにとって、長いシーケンストレーニングは難しい。最新のNVIDIA H100 80GB GPUクラスタでも、32K以上のシーケンスでLlama 8Bモデルをトレーニングすると、2つの理由から、基本的なHugging Face(HF)モデルでメモリが枯渇する。 i) LLMトレーニングワークロードは、単一のGPUメモリを完全に活用するように最適化されていない。二複数のGPUメモリを利用する既存のソリューションは、HFモデルでは容易に利用できないため、長いシーケンストレーニングは利用できない。アークティックロングシーケンストレーニング(ALST)でこの問題に対処する。注目に依存しない単一GPUとマルチGPUメモリの最適化を組み合わせることで、さまざまなHFモデルに対して、数百万のシーケンス長のアウト・オブ・ボックストレーニングをサポートすることができる。 ALSTは、単一のH100 GPU上で500Kシーケンス長、単一の8xH100 GPUノードで3.7M、4ノードクラスタで15M以上、MetaのLlama 8Bモデルのトレーニングをサポートする。 ALSTはHFモデルと完全に互換性があり、Deepspeed https://www.deepspeed.ai/tutorials/ulysses-alst-sequence-pallellism/およびArctic Training https://github.com/snowflakedb/ArcticTraining/blob/main/projects/sequence-parallelism/README.mdを介してオープンソース化されている。

関連論文リスト

Test-Time Training Done Right [61.8429380523577]
テスト時間トレーニング(TTT)モデルは、推論中にモデルの重みの一部を適応させることによってコンテキストをモデル化する。既存のTT手法は、長文データを扱う上で有効性を示すのに苦労した。我々は,大規模チャンクテストタイムトレーニング(LaCT)を開発し,ハードウェア利用率を桁違いに向上させる。
論文参考訳（メタデータ） (2025-05-29T17:50:34Z)
PRIMA.CPP: Speeding Up 70B-Scale LLM Inference on Low-Resource Everyday Home Clusters [36.52497630960292]
primaは分散推論システムで、CPU/GPU、低RAM/VRAM、Wi-Fi、クロスプラットフォームのサポートを組み合わせて、毎日のホームデバイスで70Bスケールのモデルを実行する。プリマはラマ、エクソ、アンドラマを30B+モデルで上回り、メモリ圧力は6%以下である。これにより、Llama 3、DeepSeek R1、Qwen 2.5、QwQなどのフロンティア30B-70Bモデルがホームアシスタントに導入され、高度なAIが個人に対して真にアクセスできるようになる。
論文参考訳（メタデータ） (2025-04-07T13:46:21Z)
Democratizing AI: Open-source Scalable LLM Training on GPU-based Supercomputers [65.35142508909892]
AxoNNと呼ばれる,スケーラブルでポータブルなオープンソースフレームワークで実装された新しい4次元ハイブリッド並列アルゴリズムを提案する。本稿では,Frontier 上で AxoNN を用いて405ビリオンパラメータ LLM の微調整を行う。
論文参考訳（メタデータ） (2025-02-12T06:05:52Z)
LongVILA: Scaling Long-Context Visual Language Models for Long Videos [86.28679075537089]
LongVILAは、Long-contextビジュアル言語モデルのためのフルスタックソリューションである。 LongVILAは、VILAのビデオフレーム数を8から2048に効率的に拡張し、6,000フレーム(100万枚以上のトークン)のビデオニードル・イン・ア・ヘイスタックで99.8%の精度を達成した。
論文参考訳（メタデータ） (2024-08-19T17:48:08Z)
SUBLLM: A Novel Efficient Architecture with Token Sequence Subsampling for LLM [24.65339628772433]
SUBLLMは、サブサンプリング、アップサンプリング、バイパスモジュールを組み込むことで、コアデコーダのみのフレームワークを拡張する革新的なアーキテクチャである。トレーニング中、SUBLLMはスピードを26%向上し、GPU毎にメモリを10GB削減する。推論では、スピードを最大37%向上し、1GPUあたりのメモリを1GB削減する。
論文参考訳（メタデータ） (2024-06-03T16:43:04Z)
Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文参考訳（メタデータ） (2024-05-28T22:19:30Z)
InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory [93.20588235940453]
本稿では,トレーニング不要なメモリベースのInfLLMを提案する。 InfLLMは、リモートコンテキストを追加のメモリユニットに格納し、トークン関連ユニットを注目するために効率的なメカニズムを使用する。シーケンス長が$1,024$Kにスケールしても、InfLLMは依然として、長距離依存関係を効果的にキャプチャする。
論文参考訳（メタデータ） (2024-02-07T06:50:42Z)
DISTFLASHATTN: Distributed Memory-efficient Attention for Long-context LLMs Training [82.06732962485754]
FlashAttentionは、1つのGPU上でのトレーニングトランスフォーマーベースの大規模言語モデル(LLM)において、2次ピークメモリの使用を線形に削減する。本研究では,長期LLM学習に最適化されたメモリ効率の高い注意機構であるDisTFLASHATTNを紹介する。最近のRing AttentionやDeepSpeed-Ulyssesと比較して、1.67xと1.26 - 1.88xのスピードアップを実現している。
論文参考訳（メタデータ） (2023-10-05T03:47:57Z)
Towards Memory-Efficient Training for Extremely Large Output Spaces -- Learning with 500k Labels on a Single Commodity GPU [2.3224617218247134]
巨大な出力空間(数百万ラベルまで)の分類問題では、最後の層は膨大な量のメモリを必要とする。スパース接続を使用することで、メモリ要求が大幅に削減されるが、モデルの性能が大幅に低下する可能性がある。提案手法は,わずか4GBのGPU上で670,000ラベルのデータセットにスケール可能であることを示す。
論文参考訳（メタデータ） (2023-06-06T14:44:52Z)
M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文参考訳（メタデータ） (2021-10-08T04:24:51Z)
ZeRO-Infinity: Breaking the GPU Memory Wall for Extreme Scale Deep Learning [9.322987670900778]
ZeRO-Infinityは、現在の世代のGPUクラスタでトレーニングするための数十から数百兆のパラメータを持つモデルに適合できます。 1つのNVIDIA DGX-2ノードで1兆のパラメータモデルを微調整できるため、大きなモデルの方がアクセスしやすい。
論文参考訳（メタデータ） (2021-04-16T02:22:12Z)
Efficient Large-Scale Language Model Training on GPU Clusters [19.00915720435389]
大規模な言語モデルは、様々なタスクに最先端の精度をもたらす。メモリ容量は限られており、大きなモデルを単一のGPUに収めることは不可能である。これらのモデルのトレーニングに必要な計算操作の数は、非現実的な長いトレーニング時間をもたらす可能性がある。
論文参考訳（メタデータ） (2021-04-09T16:43:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。