Fugu-MT 論文翻訳(概要): Efficiently Training 7B LLM with 1 Million Sequence Length on 8 GPUs

論文の概要: Efficiently Training 7B LLM with 1 Million Sequence Length on 8 GPUs

arxiv url: http://arxiv.org/abs/2407.12117v1
Date: Tue, 16 Jul 2024 18:59:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-18 19:18:21.829506
Title: Efficiently Training 7B LLM with 1 Million Sequence Length on 8 GPUs
Title（参考訳）: 8GPU上で100万シーケンスの7B LLMを効率的にトレーニングする
Authors: Pinxue Zhao, Hailin Zhang, Fangcheng Fu, Xiaonan Nie, Qibin Liu, Fang Yang, Yuanbo Peng, Dian Jiao, Shuaipeng Li, Jinbao Xue, Yangyu Tao, Bin Cui,
Abstract要約: 大規模言語モデル(LLM)は、よりクリエイティブなアプリケーションを促進するために、拡張コンテキスト長を使用して訓練されている。本稿では,メモリ管理を微粒化するための新しいフレームワークであるMEMOを提案する。我々は,MEMOがMegatron-LMやDeepSpeedと比較して平均2.42倍,2.26倍のMFUを達成することを示す。
参考スコア（独自算出の注目度）: 24.066283519769968
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Nowadays, Large Language Models (LLMs) have been trained using extended context lengths to foster more creative applications. However, long context training poses great challenges considering the constraint of GPU memory. It not only leads to substantial activation memory consumption during training, but also incurs considerable memory fragmentation. To facilitate long context training, existing frameworks have adopted strategies such as recomputation and various forms of parallelisms. Nevertheless, these techniques rely on redundant computation or extensive communication, resulting in low Model FLOPS Utilization (MFU). In this paper, we propose MEMO, a novel LLM training framework designed for fine-grained activation memory management. Given the quadratic scaling of computation and linear scaling of memory with sequence lengths when using FlashAttention, we offload memory-consuming activations to CPU memory after each layer's forward pass and fetch them during the backward pass. To maximize the swapping of activations without hindering computation, and to avoid exhausting limited CPU memory, we implement a token-wise activation recomputation and swapping mechanism. Furthermore, we tackle the memory fragmentation issue by employing a bi-level Mixed Integer Programming (MIP) approach, optimizing the reuse of memory across transformer layers. Empirical results demonstrate that MEMO achieves an average of 2.42x and 2.26x MFU compared to Megatron-LM and DeepSpeed, respectively. This improvement is attributed to MEMO's ability to minimize memory fragmentation, reduce recomputation and intensive communication, and circumvent the delays associated with the memory reorganization process due to fragmentation. By leveraging fine-grained activation memory management, MEMO facilitates efficient training of 7B LLM with 1 million sequence length on just 8 A800 GPUs, achieving an MFU of 52.30%.
Abstract（参考訳）: 現在、LLM(Large Language Models)は、よりクリエイティブなアプリケーションを促進するために、拡張コンテキスト長を使用して訓練されている。しかし、長いコンテキストトレーニングはGPUメモリの制約を考慮すると大きな課題となる。トレーニング中にメモリ消費が相当に活性化されるだけでなく、メモリの断片化も生じる。長期のコンテキストトレーニングを容易にするため、既存のフレームワークでは、再計算や様々な形式の並列処理といった戦略を採用している。しかしながら、これらの手法は冗長な計算や広範囲な通信に依存しており、結果としてモデルFLOPS(MFU)が低くなる。本稿では,メモリ管理の微粒化を目的とした新しいLCMトレーニングフレームワークMEMOを提案する。 FlashAttentionを使用する場合、メモリの2次スケーリングとシーケンス長の線形スケーリングを考慮し、各レイヤの前方通過後にメモリ消費の活性化をCPUメモリにオフロードし、後方通過時にそれらをフェッチする。演算を邪魔することなくアクティベーションのスワップを最大化し、限られたCPUメモリの浪費を避けるため、トークン単位のアクティベーション再計算とスワップ機構を実装した。さらに,2レベル混合整数プログラミング(MIP)アプローチを採用し,トランスフォーマー層間のメモリ再利用を最適化することで,メモリ断片化の問題に取り組む。実験の結果、MEMOはMegatron-LMとDeepSpeedと比較して平均2.42倍、平均2.26倍のMFUを達成することが示された。この改善は、メモリの断片化を最小限に抑え、再計算と集中的な通信を減らし、断片化によるメモリ再編成プロセスに伴う遅延を回避できるMEMOの能力に起因している。きめ細かいアクティベーションメモリ管理を活用することで、MEMOはわずか8A800 GPU上で100万のシーケンス長を持つ7B LLMの効率的なトレーニングを可能にし、52.30%のMFUを達成する。

関連論文リスト

MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning [78.46301394559903]
大きな言語モデル(LLM)は、長期化タスクにますます使われています。現在の手法はコストと精度のトレードオフに直面している。 MemSifterは、メモリ検索プロセスを小さなプロキシモデルにオフロードする新しいフレームワークである。
論文参考訳（メタデータ） (2026-03-03T02:57:38Z)
Out of the Memory Barrier: A Highly Memory Efficient Training System for LLMs with Million-Token Contexts [68.79341332280062]
長いコンテキストでの大規模言語モデル(LLM)のトレーニングは、トレーニング時間ではなく、GPUメモリの異常なオーバーヘッドによって厳しく制限される。この障壁に直面するメモリ効率の高いトレーニングシステムOOMBを紹介します。本手法では,オンザフライアクティベーション・リコンピュテーションを備えたチャンク・リカレント・トレーニング・フレームワークを用いて,一定のアクティベーションメモリフットプリントを維持する。
論文参考訳（メタデータ） (2026-02-02T13:52:40Z)
Mem-T: Densifying Rewards for Long-Horizon Memory Agents [23.19373149519922]
我々は,動的更新やストリーミング入力によるマルチターン検索を行うために,軽量な階層型メモリデータベースと対話する自律メモリエージェントMem-Tを紹介する。また,木誘導型強化学習フレームワークであるMoT-GRPOを提案する。
論文参考訳（メタデータ） (2026-01-30T14:23:33Z)
MemCtrl: Using MLLMs as Active Memory Controllers on Embodied Agents [53.44122827359892]
本稿では,Multimodal Large Language Models (MLLM) を用いたメモリのオンラインプルーニングフレームワークであるMemCtrlを提案する。拡張MLLMは平均で16%、特定の命令サブセットで20%以上改善されている。
論文参考訳（メタデータ） (2026-01-28T18:31:17Z)
Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents [57.38404718635204]
大規模言語モデル (LLM) エージェントは、有限コンテキストウィンドウによる長距離推論において基本的な制限に直面している。既存のメソッドは通常、長期記憶(LTM)と短期記憶(STM)を独立したコンポーネントとして扱う。本稿では,エージェントのポリシーに LTM と STM 管理を直接統合する統合フレームワークである Agentic Memory (AgeMem) を提案する。
論文参考訳（メタデータ） (2026-01-05T08:24:16Z)
Mixture-of-Channels: Exploiting Sparse FFNs for Efficient LLMs Pre-Training and Inference [16.71963410333802]
大規模言語モデル(LLM)は、多様な人工知能タスクで顕著な成功を収めている。 MoCは、事前トレーニング中のアクティベーションメモリを大幅に削減する。 MoCは、競合モデルのパフォーマンスを維持しながら、メモリの大幅な節約とスループットの向上を提供する。
論文参考訳（メタデータ） (2025-11-12T13:30:57Z)
MOM: Memory-Efficient Offloaded Mini-Sequence Inference for Long Context Language Models [72.61076288351201]
メモリ効率の良いオフロードミニシーケンス推論(MOM)を提案する。 MOMは重要なレイヤを小さな“ミニシーケンス”に分割し、KVキャッシュのオフロードとシームレスに統合する。 Meta-Llama-3.2-8Bでは、単一のA100 80GB GPU上での最大コンテキスト長を155kから455kに拡張する。
論文参考訳（メタデータ） (2025-04-16T23:15:09Z)
MoM: Linear Sequence Modeling with Mixture-of-Memories [9.665802842933209]
我々はMixture-of-Memories (MoM)と呼ばれる新しいアーキテクチャを導入する。 MoMは複数の独立したメモリ状態を利用し、ルータネットワークは入力トークンを特定のメモリ状態に誘導する。 MoMは、既存の線形シーケンスモデリング技術を超え、リコール集約タスクにおいて非常によく機能する。
論文参考訳（メタデータ） (2025-02-19T12:53:55Z)
MEADOW: Memory-efficient Dataflow and Data Packing for Low Power Edge LLMs [5.88896081401217]
大規模言語モデルのオフチップメモリアクセスを大幅に削減するフレームワークであるMEADOWを紹介する。 MEADOW は GEMM ベースの LLM 実装と比較して 1.5x と 2.5x のデコードとプリフィル遅延を示す。 MEADOWは、従来のLLM最適化作業と比較して、エンドツーエンドのレイテンシの改善を40%以上達成している。
論文参考訳（メタデータ） (2025-02-14T23:50:37Z)
Breaking Memory Limits: Gradient Wavelet Transform Enhances LLMs Training [45.225732322141994]
大規模言語モデル(LLM)は、さまざまな自然言語処理タスクで優れたパフォーマンスを発揮する。彼らの膨大な数のパラメータは、トレーニング中に大きな記憶障害を引き起こします。既存のメモリ効率のアルゴリズムは、特異値分解プロジェクションや重み凍結のような技術に依存していることが多い。本稿では,グラディエントウェーブレット変換(GWT)と呼ばれる新しい解を提案する。
論文参考訳（メタデータ） (2025-01-13T11:35:09Z)
CompAct: Compressed Activations for Memory-Efficient LLM Training [7.837209773889032]
CompActはGPU上でのピークメモリ利用を事前トレーニングで25～30%削減し、LLMの微調整で50%削減する技術である。低ランクで圧縮されたアクティベーションを後方パスに格納することで、必要なメモリを大幅に削減する。 CompActの貯蓄は、より大きなモデルに対してさらに高いスケールを期待しています。
論文参考訳（メタデータ） (2024-10-20T10:24:38Z)
vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文参考訳（メタデータ） (2024-07-22T14:37:58Z)
Mini-Sequence Transformer: Optimizing Intermediate Memory for Long Sequences Training [78.93900796545523]
ミニシーケンス変換器(Mini-Sequence Transformer, MsT)は、非常に長いシーケンスを持つ高速かつ高精度なLLMトレーニング手法である。 MsTは入力シーケンスを分割し、中間メモリ使用量を減らすためにミニシーケンスを反復的に処理する。 huggingfaceライブラリと統合され、MsTはQwen、Mistral、Gemma-2の最大コンテキスト長を12-24倍に拡張した。
論文参考訳（メタデータ） (2024-07-22T01:52:30Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
$\text{Memory}^3$: Language Modeling with Explicit Memory [22.572376536612015]
我々は、大言語モデル(LLM)に明示的なメモリ、モデルパラメータよりも安いメモリフォーマット、テキスト検索拡張生成(RAG)を装備する。予備的な概念実証として, 2.4B LLM をゼロからトレーニングし, より大きな LLM モデルやRAG モデルよりも優れた性能を実現する。本稿では,知識の外部化を支援するメモリ回路理論を導入し,記憶をトラクタブルにするメモリスペーサー化機構を含む新しい手法を提案する。
論文参考訳（メタデータ） (2024-07-01T11:07:23Z)
MemLLM: Finetuning LLMs to Use An Explicit Read-Write Memory [49.96019697955383]
本稿では,構造化および明示的な読み書きメモリモジュールを統合することで,大規模言語モデル(LLM)の拡張手法であるMemLLMを紹介する。実験の結果, 言語モデリング, 特に知識集約型タスクにおいて, MemLLMはLLMの性能と解釈可能性を向上させることが示唆された。
論文参考訳（メタデータ） (2024-04-17T18:13:16Z)
Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。 HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文参考訳（メタデータ） (2024-04-16T06:34:08Z)
MAMBA: Multi-level Aggregation via Memory Bank for Video Object Detection [35.16197118579414]
我々は,MAMBAと呼ばれるメモリバンクを用いたマルチレベル集約アーキテクチャを提案する。具体的には,既存の手法の欠点を解消するために,メモリバンクが2つの新しい操作を施している。従来の最先端手法と比較して,提案手法は速度と精度の両面で優れた性能を発揮する。
論文参考訳（メタデータ） (2024-01-18T12:13:06Z)
RMM: Reinforced Memory Management for Class-Incremental Learning [102.20140790771265]
クラスインクリメンタルラーニング(CIL)は、厳格な記憶予算の下で分類器を訓練する。既存のメソッドは静的およびアドホックな戦略を使ってメモリ割り当てを行うが、これはしばしば準最適である。本稿では,段階的な段階と異なるオブジェクトクラスに最適化された動的メモリ管理戦略を提案する。
論文参考訳（メタデータ） (2023-01-14T00:07:47Z)
Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。 Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。 ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文参考訳（メタデータ） (2021-11-22T11:23:01Z)
Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文参考訳（メタデータ） (2020-10-14T09:03:36Z)
In-memory Implementation of On-chip Trainable and Scalable ANN for AI/ML Applications [0.0]
本稿では,人工知能(AI)と機械学習(ML)アプリケーションを実現するための,ANNのためのインメモリコンピューティングアーキテクチャを提案する。我々の新しいオンチップトレーニングとインメモリアーキテクチャは、プリチャージサイクル当たりの配列の複数行を同時にアクセスすることで、エネルギーコストを削減し、スループットを向上させる。提案したアーキテクチャはIRISデータセットでトレーニングされ、以前の分類器と比較してMAC当たりのエネルギー効率が4,6倍に向上した。
論文参考訳（メタデータ） (2020-05-19T15:36:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。