論文の概要: AutoChunk: Automated Activation Chunk for Memory-Efficient Long Sequence Inference
- arxiv url: http://arxiv.org/abs/2401.10652v3
- Date: Mon, 8 Jul 2024 21:52:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 00:01:01.018248
- Title: AutoChunk: Automated Activation Chunk for Memory-Efficient Long Sequence Inference
- Title(参考訳): AutoChunk: メモリ効率の良いロングシーケンス推論のための自動アクティベーションチャンク
- Authors: Xuanlei Zhao, Shenggan Cheng, Guangyang Lu, Jiarui Fang, Haotian Zhou, Bin Jia, Ziming Liu, Yang You,
- Abstract要約: チャンク戦略による長周期推論のためのアクティベーションメモリを効率よく削減する自動適応型コンパイラであるAutoChunkを提案する。
実験により、AutoChunkは10%の速度損失を維持しながらアクティベーションメモリの80%以上を削減し、最大シーケンス長を3.2倍から11.7倍に拡張し、最先端の手法よりも大きなマージンで性能を向上できることが示された。
- 参考スコア(独自算出の注目度): 13.711439157102836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large deep learning models have achieved impressive performance across a range of applications. However, their large memory requirements, including parameter memory and activation memory, have become a significant challenge for their practical serving. While existing methods mainly address parameter memory, the importance of activation memory has been overlooked. Especially for long input sequences, activation memory is expected to experience a significant exponential growth as the length of sequences increases. In this approach, we propose AutoChunk, an automatic and adaptive compiler system that efficiently reduces activation memory for long sequence inference by chunk strategies. The proposed system generates chunk plans by optimizing through multiple stages. In each stage, the chunk search pass explores all possible chunk candidates and the chunk selection pass identifies the optimal one. At runtime, AutoChunk employs code generation to automatically apply chunk strategies. The experiments demonstrate that AutoChunk can reduce over 80\% of activation memory while maintaining speed loss within 10%, extend max sequence length by 3.2x to 11.7x, and outperform state-of-the-art methods by a large margin.
- Abstract(参考訳): 大規模なディープラーニングモデルは、さまざまなアプリケーションで素晴らしいパフォーマンスを実現しています。
しかし、パラメータメモリやアクティベーションメモリを含む大きなメモリ要件は、実用上重要な課題となっている。
既存のメソッドは主にパラメータメモリに対処するが、アクティベーションメモリの重要性は見過ごされている。
特に、長い入力シーケンスでは、アクティベーションメモリは、シーケンスの長さが増加するにつれて顕著な指数関数的な成長を経験することが期待されている。
提案するAutoChunkは,チャンク戦略による長周期推論のためのアクティベーションメモリを効率的に削減する自動適応型コンパイラである。
提案システムでは,複数段階の最適化によりチャンクプランを生成する。
各段階で、チャンク検索パスは可能なチャンク候補をすべて探索し、チャンク選択パスは最適なチャンクを識別する。
実行時に、AutoChunkはコード生成を使用してチャンク戦略を自動的に適用する。
実験の結果、AutoChunkは10%以内の速度損失を維持しながら80%以上のアクティベーションメモリを削減し、最大シーケンス長を3.2倍から11.7倍に拡張し、最先端の手法よりも大きなマージンで性能を向上できることが示された。
関連論文リスト
- ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Efficiently Training 7B LLM with 1 Million Sequence Length on 8 GPUs [24.066283519769968]
大規模言語モデル(LLM)は、よりクリエイティブなアプリケーションを促進するために、拡張コンテキスト長を使用して訓練されている。
本稿では,メモリ管理を微粒化するための新しいフレームワークであるMEMOを提案する。
我々は,MEMOがMegatron-LMやDeepSpeedと比較して平均2.42倍,2.26倍のMFUを達成することを示す。
論文 参考訳(メタデータ) (2024-07-16T18:59:49Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - Efficient Memory Management for Large Language Model Serving with
PagedAttention [44.70922552274376]
大規模言語モデル(LLM)の高スループットサービスには,一度に十分な数の要求が要求される。
既存のシステムでは、各要求のキー値キャッシュ(KVキャッシュ)メモリが巨大で、成長し、動的に縮小するため、苦労している。
本稿では,オペレーティングシステムにおける従来の仮想メモリとページング技術にヒントを得たアテンションアルゴリズムであるPagedAttentionを提案する。
論文 参考訳(メタデータ) (2023-09-12T12:50:04Z) - Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。