論文の概要: Mnemosyne: Parallelization Strategies for Efficiently Serving Multi-Million Context Length LLM Inference Requests Without Approximations
- arxiv url: http://arxiv.org/abs/2409.17264v1
- Date: Wed, 25 Sep 2024 18:21:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-30 12:52:34.781753
- Title: Mnemosyne: Parallelization Strategies for Efficiently Serving Multi-Million Context Length LLM Inference Requests Without Approximations
- Title(参考訳): Mnemosyne: 近似のないマルチミリオンコンテキスト長LLM推論を効率的に実行するための並列化戦略
- Authors: Amey Agrawal, Junda Chen, Íñigo Goiri, Ramachandran Ramjee, Chaojie Zhang, Alexey Tumanov, Esha Choukse,
- Abstract要約: 本稿では,対話型長期コンテキスト推論のための3つの重要なイノベーションを提案する。
これらは適応的なチャンキングで、混合、シーケンスパイプライン並列(SPP)、キャッシュ並列(KVP)のプリフィルオーバーヘッドを削減する。
これらのコントリビューションは3D戦略に統合され、Mnemosyneは対話的推論を少なくとも1000万トークンまで拡張し、並列処理で高いスループットを実現することができる。
- 参考スコア(独自算出の注目度): 8.881243419237608
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) evolve to handle increasingly longer contexts, serving inference requests for context lengths in the range of millions of tokens presents unique challenges. While existing techniques are effective for training, they fail to address the unique challenges of inference, such as varying prefill and decode phases and their associated latency constraints - like Time to First Token (TTFT) and Time Between Tokens (TBT). Furthermore, there are no long context inference solutions that allow batching requests to increase the hardware utilization today. In this paper, we propose three key innovations for efficient interactive long context LLM inference, without resorting to any approximation: adaptive chunking to reduce prefill overheads in mixed batching, Sequence Pipeline Parallelism (SPP) to lower TTFT, and KV Cache Parallelism (KVP) to minimize TBT. These contributions are combined into a 3D parallelism strategy, enabling Mnemosyne to scale interactive inference to context lengths at least up to 10 million tokens with high throughput enabled with batching. To our knowledge, Mnemosyne is the first to be able to achieve support for 10 million long context inference efficiently, while satisfying production-grade SLOs on TBT (30ms) on contexts up to and including 10 million.
- Abstract(参考訳): 大規模言語モデル(LLM)がより長いコンテキストを扱うように進化するにつれて、数百万のトークンの範囲におけるコンテキスト長の推論要求がユニークな課題を示す。
既存のテクニックはトレーニングに有効だが、プレフィルとデコードフェーズや、TTFT(Time to First Token)やTBT(Time Between Tokens)など、関連するレイテンシ制約など、推論のユニークな課題に対処できない。
さらに、バッチリクエストが現在のハードウェア利用量を増加させる、長いコンテキスト推論ソリューションはありません。
本稿では,混合バッチ処理におけるプレフィルオーバヘッドを削減する適応チャンキング,TTFTの低減を目的としたシーケンスパイプライン並列化(SPP),TBTの最小化を目的としたKVキャッシュ並列化(KVP)の3つの重要なイノベーションを提案する。
これらのコントリビューションを3D並列化戦略に統合することで、Mnemosyneは、バッチ処理によって高いスループットで、少なくとも1000万のトークンに対してインタラクティブな推論をスケールすることができる。
私たちの知る限り、Mnemosyneは、1000万のコンテキスト推論を効率的にサポートし、最大1000万までのコンテキスト上で、TBT(30ms)上のプロダクショングレードのSLOを満足しながら、初めて、1000万のコンテキスト推論を効率的に実現しました。
関連論文リスト
- Communication Compression for Tensor Parallel LLM Inference [1.199955563466263]
大規模言語モデル(LLM)は人工知能のフロンティアを推し進めてきたが、数十億のパラメータと操作で構成されている。
高速な推論レイテンシを実現するため、LLMはさまざまなModel Parallelism戦略を通じて、複数のハードウェアアクセラレータにデプロイされる。
そこで本稿では, 並列化方式について詳細に検討し, 加速器間通信の圧縮による遅延低減を提案する。
論文 参考訳(メタデータ) (2024-11-14T15:19:01Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - ISO: Overlap of Computation and Communication within Seqenence For LLM Inference [8.616769297336708]
本稿では,シーケンスレベルで動作する計算通信重複に対する新しい戦略を提案する。
30b/70bモデルを用いて実験を行った結果,効率が著しく向上した。
論文 参考訳(メタデータ) (2024-09-04T05:22:17Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - CALF: Aligning LLMs for Time Series Forecasting via Cross-modal Fine-Tuning [59.88924847995279]
MTSFのためのクロスモーダルLCMファインチューニング(CALF)フレームワークを提案する。
分散の相違を低減するため,クロスモーダルマッチングモジュールを開発した。
CALFは、長期および短期の予測タスクの最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2024-03-12T04:04:38Z) - InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory [93.20588235940453]
本稿では,トレーニング不要なメモリベースのInfLLMを提案する。
InfLLMは、リモートコンテキストを追加のメモリユニットに格納し、トークン関連ユニットを注目するために効率的なメカニズムを使用する。
シーケンス長が$1,024$Kにスケールしても、InfLLMは依然として、長距離依存関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-02-07T06:50:42Z) - Modality Plug-and-Play: Elastic Modality Adaptation in Multimodal LLMs
for Embodied AI [10.82017289243097]
LLM(Large Language Models)は、事前訓練されたエンコーダを通じて様々な入力データモダリティを推論することができる。
m-LLMは、既存の最良のスキームと比較してタスクの精度を最大4%改善する。
論文 参考訳(メタデータ) (2023-12-13T04:08:59Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Recursion of Thought: A Divide-and-Conquer Approach to Multi-Context
Reasoning with Language Models [58.41943058963672]
我々はRecursion of Thought (RoT)と呼ばれる新しい推論フレームワークを提案する。
RoTはいくつかの特別なトークンを導入し、モデルが出力してコンテキスト関連の操作をトリガーする。
GPT-3を含む複数のアーキテクチャの実験により、RoTは問題を解くためにLMの推論能力を劇的に改善した。
論文 参考訳(メタデータ) (2023-06-12T06:34:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。