論文の概要: Understanding and Optimizing Multi-Stage AI Inference Pipelines
- arxiv url: http://arxiv.org/abs/2504.09775v2
- Date: Wed, 16 Apr 2025 17:34:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 11:15:22.069997
- Title: Understanding and Optimizing Multi-Stage AI Inference Pipelines
- Title(参考訳): マルチステージAI推論パイプラインの理解と最適化
- Authors: Abhimanyu Rajeshkumar Bambhaniya, Hanjiang Wu, Suvinay Subramanian, Sudarshan Srinivasan, Souvik Kundu, Amir Yazdanbakhsh, Midhilesh Elavazhagan, Madhu Kumar, Tushar Krishna,
- Abstract要約: HERMESは不均一な多段LPM推論実行シミュレータである。
HERMESは、以前のフレームワークとは異なり、複数のモデルを同時に実行する異種クライアントをサポートする。
我々は、推論ステージがエンドツーエンドのレイテンシ、ハイブリッドパイプラインの最適戦略、リモートKVキャッシュ検索のアーキテクチャ的影響について検討する。
- 参考スコア(独自算出の注目度): 11.254219071373319
- License:
- Abstract: The rapid evolution of Large Language Models (LLMs) has driven the need for increasingly sophisticated inference pipelines and hardware platforms. Modern LLM serving extends beyond traditional prefill-decode workflows, incorporating multi-stage processes such as Retrieval Augmented Generation (RAG), key-value (KV) cache retrieval, dynamic model routing, and multi step reasoning. These stages exhibit diverse computational demands, requiring distributed systems that integrate GPUs, ASICs, CPUs, and memory-centric architectures. However, existing simulators lack the fidelity to model these heterogeneous, multi-engine workflows, limiting their ability to inform architectural decisions. To address this gap, we introduce HERMES, a Heterogeneous Multi-stage LLM inference Execution Simulator. HERMES models diverse request stages; including RAG, KV retrieval, reasoning, prefill, and decode across complex hardware hierarchies. HERMES supports heterogeneous clients executing multiple models concurrently unlike prior frameworks while incorporating advanced batching strategies and multi-level memory hierarchies. By integrating real hardware traces with analytical modeling, HERMES captures critical trade-offs such as memory bandwidth contention, inter-cluster communication latency, and batching efficiency in hybrid CPU-accelerator deployments. Through case studies, we explore the impact of reasoning stages on end-to-end latency, optimal batching strategies for hybrid pipelines, and the architectural implications of remote KV cache retrieval. HERMES empowers system designers to navigate the evolving landscape of LLM inference, providing actionable insights into optimizing hardware-software co-design for next-generation AI workloads.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進化により、ますます洗練された推論パイプラインとハードウェアプラットフォームの必要性が高まっている。
現代のLLMは、従来のプリフィル・デコードワークフローを超えて拡張されており、Retrieval Augmented Generation (RAG)、キー値(KV)キャッシュの検索、動的モデルルーティング、マルチステップ推論などのマルチステージプロセスが組み込まれている。
これらのステージは様々な計算要求を示し、GPU、ASIC、CPU、メモリ中心アーキテクチャを統合する分散システムを必要とする。
しかし、既存のシミュレータには、これらの異種多エンジンワークフローをモデル化するための忠実さが欠けており、アーキテクチャ上の決定を伝達する能力が制限されている。
このギャップに対処するために,不均一な多段LPM推論実行シミュレータであるHERMESを紹介する。
HERMESは、RAG、KV検索、推論、プリフィル、複雑なハードウェア階層間のデコードなど、さまざまな要求ステージをモデル化する。
HERMESは、先進的なバッチ戦略とマルチレベルメモリ階層を取り入れながら、以前のフレームワークとは異なり、複数のモデルを同時に実行する異種クライアントをサポートする。
実際のハードウェアトレースと分析モデルを統合することで、HERMESは、メモリ帯域幅の競合、クラスタ間通信レイテンシ、ハイブリッドCPU-アクセラレータデプロイメントにおけるバッチ処理効率といった重要なトレードオフをキャプチャする。
ケーススタディを通じて、推論ステージがエンドツーエンドのレイテンシ、ハイブリッドパイプラインの最適なバッチ戦略、リモートKVキャッシュ検索のアーキテクチャ的影響について検討する。
HERMESは、LLM推論の進化するランドスケープをナビゲートし、次世代AIワークロードのためのハードウェアとソフトウェアの共同設計の最適化に関する実用的な洞察を提供する。
関連論文リスト
- SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。
トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。
コードとモデルはリリースされます。
論文 参考訳(メタデータ) (2024-12-12T18:59:26Z) - GUIDE: A Global Unified Inference Engine for Deploying Large Language Models in Heterogeneous Environments [1.0558515062670693]
現実世界のシナリオにおける大規模言語モデル(LLM)は依然として重要な課題である。
これらの課題は、しばしばメモリ使用率、レイテンシ、スループットの非効率につながる。
バッチレイテンシ、TTFT、デコードスループットといった主要なメトリクスに対して、予測エラーを9.9%から42.3%の精度で達成し、これらの問題に対処するフレームワークを開発する。
論文 参考訳(メタデータ) (2024-12-06T05:46:43Z) - Survey and Evaluation of Converging Architecture in LLMs based on Footsteps of Operations [3.355436702348694]
現在の最先端のLSMは非常に大きく、パラメータは約700億である。
モデルのサイズが大きくなるにつれて、かなりのストレージと計算能力の需要が増大する。
本稿では,レイヤ構成,運用機構,モデルサイズの観点から,これらの収束アーキテクチャがどのように機能するかを解析する。
論文 参考訳(メタデータ) (2024-10-15T08:19:24Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Performance Modeling and Workload Analysis of Distributed Large Language Model Training and Inference [2.2231908139555734]
本稿では,分散LLMトレーニングと推論の一般的な性能モデリング手法とワークロード解析を提案する。
文献や関連業界ベンダ(NVIDIAなど)の公開データによるパフォーマンス予測を検証する。
論文 参考訳(メタデータ) (2024-07-19T19:49:05Z) - Inference Optimization of Foundation Models on AI Accelerators [68.24450520773688]
トランスフォーマーアーキテクチャを備えた大規模言語モデル(LLM)を含む強力な基礎モデルは、ジェネレーティブAIの新たな時代を支えている。
モデルパラメータの数が数十億に達すると、実際のシナリオにおける推論コストと高いレイテンシーが排除される。
このチュートリアルでは、AIアクセラレータを用いた補完推論最適化テクニックに関する包括的な議論を行っている。
論文 参考訳(メタデータ) (2024-07-12T09:24:34Z) - Mechanistic Design and Scaling of Hybrid Architectures [114.3129802943915]
我々は、様々な計算プリミティブから構築された新しいハイブリッドアーキテクチャを特定し、テストする。
本研究では,大規模計算最適法則と新しい状態最適スケーリング法則解析を用いて,結果のアーキテクチャを実験的に検証する。
我々は,MAD合成法と計算-最適パープレキシティを相関させ,新しいアーキテクチャの正確な評価を可能にする。
論文 参考訳(メタデータ) (2024-03-26T16:33:12Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Multi-Agent Reinforcement Learning for Microprocessor Design Space
Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。
この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。
評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文 参考訳(メタデータ) (2022-11-29T17:10:24Z) - Scalable Deep-Learning-Accelerated Topology Optimization for Additively
Manufactured Materials [4.221095652322005]
トポロジー最適化(TO)は、新しい構造、材料、デバイスを設計するための、人気があり強力な計算手法である。
これらの課題に対処するため、SDL-TOと呼ばれる汎用拡張型ディープラーニング(DL)ベースのToフレームワークを提案する。
我々のフレームワークは、反復履歴データを学習し、与えられた設計と勾配のマッピングを同時にトレーニングすることで、TOを加速します。
論文 参考訳(メタデータ) (2020-11-28T17:38:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。