論文の概要: Parallelization Strategies for Dense LLM Deployment: Navigating Through Application-Specific Tradeoffs and Bottlenecks
- arxiv url: http://arxiv.org/abs/2603.05692v1
- Date: Thu, 05 Mar 2026 21:33:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.57142
- Title: Parallelization Strategies for Dense LLM Deployment: Navigating Through Application-Specific Tradeoffs and Bottlenecks
- Title(参考訳): 複雑なLLMデプロイメントのための並列化戦略:アプリケーション固有のトレードオフとブートネックをナビゲートする
- Authors: Burak Topcu, Musa Oguzhan Cim, Poovaiah Palangappa, Meena Arunachalam, Mahmut Taylan Kandemir,
- Abstract要約: AIのブレークスルーは、大規模言語モデル(LLM)ベースのアプリケーションの爆発を加速させた。
センスモデルは、その強力な能力、スケーラビリティ、微調整の容易さ、さまざまなタスクにおける汎用性のために、引き続き支配的です。
本稿では,ノード内並列化方式に着目した2つの代表的高密度LLMの負荷について検討する。
- 参考スコア(独自算出の注目度): 6.447439020088275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Breakthroughs in the generative AI domain have fueled an explosion of large language model (LLM)-powered applications, whose workloads fundamentally consist of sequences of inferences through transformer architectures. Within this rapidly expanding ecosystem, dense LLMs--those that activate all model parameters for each token generation--form the foundation for advanced expert-based variants. Dense models continue to dominate because of their strong generalization ability, scalability, ease of fine-tuning, and versatility across diverse tasks. In LLM inference systems, performance is mainly characterized by latency, response time, and throughput (i.e., tokens generated per unit of time). Latency and throughput are inherently coupled: optimizing for one often comes at the expense of the other. Moreover, batching strategies and parallelism configurations, which are essential when dense model parameters exceed device memory capacity, can significantly affect both latency and overall system throughput. This paper (i) investigates the workloads of two representative dense LLMs--Llama-3.1-70B and Llama-3.1-405B, focusing in particular on intra-node parallelization schemes, (ii) analyzes how input characteristics, batching, and parallelism strategies influence latency flexibility and the latency-throughput tradeoff, and (iii) identifies key performance bottlenecks that inform design choices for meeting service-level agreements (SLAs) and sustaining inference quality. Our empirical evaluations reveal that Tensor Parallelism (TP) improves the latency objectives while Pipeline Parallelism (PP) is better-suited for throughput-oriented applications. We highlight that their hybrid usage by controlling the TP and PP degrees provides control over the latency-throughput interplay.
- Abstract(参考訳): 生成AI領域のブレークスルーは、大きな言語モデル(LLM)ベースのアプリケーションの爆発を加速させた。
この急速に拡大するエコシステムの中で、トークン生成毎にすべてのモデルパラメータを活性化する高密度LLMが、高度なエキスパートベースの変種の基礎を形成している。
デンスモデルは、強力な一般化能力、スケーラビリティ、微調整の容易さ、さまざまなタスクにおける汎用性のために、引き続き支配的です。
LLM推論システムでは、パフォーマンスは主にレイテンシ、応答時間、スループット(すなわち、単位時間当たりのトークン)によって特徴づけられる。
レイテンシとスループットは本質的に結合しています。
さらに、高密度モデルパラメータがデバイスのメモリ容量を超える場合に必要となるバッチ戦略と並列性の設定は、レイテンシとシステム全体のスループットの両方に大きく影響します。
この論文は
(i)Llama-3.1-70BとLlama-3.1-405Bの2つの代表的なLLMの負荷について検討し、特にノード内並列化方式に着目した。
(ii)入力特性、バッチ化、並列化戦略がレイテンシの柔軟性やレイテンシ・スループットのトレードオフにどのように影響するかを分析し、
3) サービスレベルの合意(SLA)を満たし、推論品質を維持するための設計選択を通知する重要なパフォーマンスボトルネックを特定します。
我々の経験的評価では、テンソル並列(TP)がレイテンシの目標を改善する一方、パイプライン並列(PP)はスループット指向のアプリケーションに適していることが示されている。
TP と PP の度合いを制御することで,そのハイブリッド利用がレイテンシ・スループットの相互作用を制御できることを強調した。
関連論文リスト
- Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models [97.55009021098554]
本研究の目的は、SLMのリアルタイムレイテンシの主要な決定要因を特定し、SLMの設計とトレーニングのための一般化可能な原則と方法論を提供することである。
我々はNemotron-Flashと呼ばれるハイブリッドSLMの新たなファミリーを導入し、最先端SLMの精度・効率のフロンティアを大幅に向上させる。
論文 参考訳(メタデータ) (2025-11-24T08:46:36Z) - DRL: Discriminative Representation Learning with Parallel Adapters for Class Incremental Learning [63.65467569295623]
本稿では,これらの課題に対処するための差別的表現学習(DRL)フレームワークを提案する。
逐次学習を効果的かつ効率的に行うために、DRLのネットワークはPTM上に構築される。
我々のDRLは、CIL時代を通して、他の最先端の手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2025-10-14T03:19:15Z) - ASPD: Unlocking Adaptive Serial-Parallel Decoding by Exploring Intrinsic Parallelism in LLMs [34.477777651648914]
大規模言語モデル(LLM)は、自動回帰デコードパラダイムのため、推論遅延の大きな問題を生じさせる。
本稿では、並列化可能なデータの自動構築と効率的な並列化機構の2つの課題に対処する適応シリアル-パラレルデコーディング(ASPD)を提案する。
我々のフレームワークは、効率的なLCM並列推論のための基盤となるベンチマークを設定し、AIによるカスタマーサービスボットや回答検索エンジンのようなレイテンシに敏感なアプリケーションへのデプロイの道を開く。
論文 参考訳(メタデータ) (2025-08-12T12:35:55Z) - Learning Unified System Representations for Microservice Tail Latency Prediction [8.532290784939967]
マイクロサービスアーキテクチャは、スケーラブルなクラウドネイティブアプリケーションを構築するためのデファクトスタンダードになっています。
従来のアプローチでは、要求毎のレイテンシメトリクスに依存しており、過渡的なノイズに非常に敏感です。
我々は,トラフィック側とリソース側の機能を明確に分離し,モデル化するディープラーニングネットワークであるUSRFNetを提案する。
論文 参考訳(メタデータ) (2025-08-03T07:46:23Z) - ElasticMM: Efficient Multimodal LLMs Serving with Elastic Multimodal Parallelism [9.93378263858092]
マルチモーダル大言語モデル(MLLM)は、特徴抽出器とプロジェクションモジュールを組み込むことで、画像、ビデオ、オーディオを扱う。
現在の密結合のサービスアーキテクチャは、混合要求タイプを区別するのに苦労しています。
本稿では,リソースの不均一性に弾力的に適応する新しいサービスパラダイムであるElastic Multimodal Parallelism(EMP)を紹介する。
論文 参考訳(メタデータ) (2025-07-14T08:53:48Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - LIFT: Latent Implicit Functions for Task- and Data-Agnostic Encoding [4.759109475818876]
Implicit Neural Representations (INR)は、多様なデータドメインをまたいだタスクモデリングを統合するための強力なパラダイムであることが証明されている。
本稿では,メタラーニングによるマルチスケール情報をキャプチャする新しい高性能フレームワークLIFTを紹介する。
また、残差接続と表現頻度符号化を組み込んだLIFTの強化版であるReLIFTについても紹介する。
論文 参考訳(メタデータ) (2025-03-19T17:00:58Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。