論文の概要: Context Parallelism for Scalable Million-Token Inference
- arxiv url: http://arxiv.org/abs/2411.01783v1
- Date: Mon, 04 Nov 2024 04:15:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:49:05.620993
- Title: Context Parallelism for Scalable Million-Token Inference
- Title(参考訳): スケーラブルな数百万の推論のためのコンテキスト並列性
- Authors: Amy, Yang, Jingyi Yang, Aya Ibrahim, Xinfeng Xie, Bangsheng Tang, Grigory Sizov, Jongsoo Park, Jianyu Huang,
- Abstract要約: 本手法は,Llama3 405Bモデルを77秒間(並列化効率93%,FLOPS利用63%),128Kコンテキストプリフィル3.8秒間)で1Mのコンテキストプリフィルを実現する。
提案手法は,中から低のホスト間帯域を持つ一般的な商用データセンターを用いて,十分にスケール可能であることを示す。
- 参考スコア(独自算出の注目度): 31.178145136837138
- License:
- Abstract: We present context parallelism for long-context large language model inference, which achieves near-linear scaling for long-context prefill latency with up to 128 H100 GPUs across 16 nodes. Particularly, our method achieves 1M context prefill with Llama3 405B model in 77s (93% parallelization efficiency, 63% FLOPS utilization) and 128K context prefill in 3.8s. We develop two lossless exact ring attention variants: pass-KV and pass-Q to cover a wide range of use cases with the state-of-the-art performance: full prefill, persistent KV prefill and decode. Benchmarks on H100 GPU hosts inter-connected with RDMA and TCP both show similar scalability for long-context prefill, demonstrating that our method scales well using common commercial data center with medium-to-low inter-host bandwidth.
- Abstract(参考訳): 16ノードにわたる最大128のH100 GPUで、長いコンテキストのプリフィル待ち時間に対するニア線形スケーリングを実現する長コンテキスト大言語モデル推論のためのコンテキスト並列性を示す。
特に,Llama3 405Bモデル(並列化効率93%,FLOPS利用63%)と128Kコンテキストプリフィル3.8秒で1Mコンテキストプリフィルを実現した。
我々は、最先端の性能を持つ幅広いユースケースをカバーするために、パス-KVとパス-Qの2つの損失のない正確なリングアテンションバリアントを開発する:フルプリフィル、永続的なKVプリフィル、デコード。
H100 GPU上でのベンチマークではRDMAとTCPの相互接続が長文プリフィルに類似したスケーラビリティを示す。
関連論文リスト
- TPI-LLM: Serving 70B-scale LLMs Efficiently on Low-resource Edge Devices [36.714057078457195]
本稿では,70Bスケールモデルに対する計算およびメモリ効率の高いテンソル並列推論システムであるTPI-LLMを提案する。
TPI-LLMは、ユーザのデバイスに機密データをローカルに保持し、スライディングウィンドウメモリスケジューラを導入する。
TPI-LLMは、Accelerateと比較して80%以上、タイム・ツー・ファースト・トークンのレイテンシが低いことを示した。
論文 参考訳(メタデータ) (2024-10-01T09:18:56Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities [53.97515452727115]
ChatQA 2は、128Kコンテキストウィンドウを備えたLlama 3.0ベースのモデルである。
Llama3-70Bベースのコンテキストウィンドウを8Kから128Kまで拡張するためのトレーニングレシピを提案する。
以上の結果から,Llama3-ChatQA-2-70Bモデルは既存の最先端モデルよりも優れていた。
論文 参考訳(メタデータ) (2024-07-19T17:35:47Z) - Pipette: Automatic Fine-grained Large Language Model Training Configurator for Real-World Clusters [5.190794062263327]
大規模言語モデル(LLM)の訓練は、膨大な計算能力とメモリ容量の要求のために困難であることが知られている。
本稿では,実世界のクラスタを対象としたLLM自動微粒化トレーニングであるPipetteを提案する。
論文 参考訳(メタデータ) (2024-05-28T11:59:44Z) - Training-Free Long-Context Scaling of Large Language Models [114.53296002607993]
我々は、Llama2 70Bが連続的なトレーニングなしで100k以上のトークンのコンテキストウィンドウをサポート可能なDual Chunk Attentionを提案する。
長いシーケンスの注意をチャンクベースのモジュールに分解することで、DCAはトークンの相対的な位置情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-02-27T12:39:23Z) - Boosting the effective performance of massively parallel tensor network
state algorithms on hybrid CPU-GPU based architectures via non-Abelian
symmetries [0.0]
Wigner-Eckhart定理に基づく非アベリア対称性関連テンソル代数は、従来のテンソルネットワーク層から完全に分離されている。
我々は、計算複雑性の観点からarXiv:2305.05581で報告された結果に対し、桁違いの性能向上を達成した。
提案手法の有効性能は250-500TFLOPSと推定される。
論文 参考訳(メタデータ) (2023-09-23T07:49:53Z) - Revisiting Multi-Scale Feature Fusion for Semantic Segmentation [90.32746095413447]
本稿では,高精度なセマンティックセグメンテーションには高い内部分解能もアトラス畳み込みも不要であることを示す。
我々は,内部分解能が高く,高コストなアトラス畳み込みをもたない,ESegと呼ばれる簡易なセグメンテーションモデルを開発した。
我々の単純な手法は、複数のデータセットにまたがる先行技術よりも高速で精度を向上できる。
論文 参考訳(メタデータ) (2022-03-23T19:14:11Z) - Efficient Context-Aware Network for Abdominal Multi-organ Segmentation [8.92337236455273]
腹腔内多臓器分画を効果的かつ効果的に行うための網羅的粗粒化フレームワークを開発した。
デコーダモジュールでは、k*k*1のスライス内畳み込みと1*1*kのスライス間畳み込みによる異方性畳み込みが、負担を軽減するように設計されている。
コンテキストブロックに対して、異方性と長距離のコンテキスト情報をキャプチャするためのストリッププーリングモジュールを提案する。
論文 参考訳(メタデータ) (2021-09-22T09:05:59Z) - Efficient Video Semantic Segmentation with Labels Propagation and
Refinement [138.55845680523908]
本稿では,ハイブリッドGPU/CPUを用いた高精細ビデオのリアルタイムセマンティックセマンティックセマンティック化の問題に取り組む。
i) CPU上では、非常に高速な光フロー法であり、ビデオの時間的側面を利用して、あるフレームから次のフレームへ意味情報を伝達するために使用される。
高解像度フレーム(2048 x 1024)を持つ一般的なCityscapesデータセットでは、単一のGPUとCPU上で80から1000Hzの動作ポイントが提案されている。
論文 参考訳(メタデータ) (2019-12-26T11:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。