Fugu-MT 論文翻訳(概要): Understanding and Optimizing Multi-Stage AI Inference Pipelines

論文の概要: Understanding and Optimizing Multi-Stage AI Inference Pipelines

arxiv url: http://arxiv.org/abs/2504.09775v2
Date: Wed, 16 Apr 2025 17:34:04 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-24 13:03:25.258781
Title: Understanding and Optimizing Multi-Stage AI Inference Pipelines
Title（参考訳）: マルチステージAI推論パイプラインの理解と最適化
Authors: Abhimanyu Rajeshkumar Bambhaniya, Hanjiang Wu, Suvinay Subramanian, Sudarshan Srinivasan, Souvik Kundu, Amir Yazdanbakhsh, Midhilesh Elavazhagan, Madhu Kumar, Tushar Krishna,
Abstract要約: HERMESは不均一な多段LPM推論実行シミュレータである。 HERMESは、以前のフレームワークとは異なり、複数のモデルを同時に実行する異種クライアントをサポートする。我々は、推論ステージがエンドツーエンドのレイテンシ、ハイブリッドパイプラインの最適戦略、リモートKVキャッシュ検索のアーキテクチャ的影響について検討する。
参考スコア（独自算出の注目度）: 11.254219071373319
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The rapid evolution of Large Language Models (LLMs) has driven the need for increasingly sophisticated inference pipelines and hardware platforms. Modern LLM serving extends beyond traditional prefill-decode workflows, incorporating multi-stage processes such as Retrieval Augmented Generation (RAG), key-value (KV) cache retrieval, dynamic model routing, and multi step reasoning. These stages exhibit diverse computational demands, requiring distributed systems that integrate GPUs, ASICs, CPUs, and memory-centric architectures. However, existing simulators lack the fidelity to model these heterogeneous, multi-engine workflows, limiting their ability to inform architectural decisions. To address this gap, we introduce HERMES, a Heterogeneous Multi-stage LLM inference Execution Simulator. HERMES models diverse request stages; including RAG, KV retrieval, reasoning, prefill, and decode across complex hardware hierarchies. HERMES supports heterogeneous clients executing multiple models concurrently unlike prior frameworks while incorporating advanced batching strategies and multi-level memory hierarchies. By integrating real hardware traces with analytical modeling, HERMES captures critical trade-offs such as memory bandwidth contention, inter-cluster communication latency, and batching efficiency in hybrid CPU-accelerator deployments. Through case studies, we explore the impact of reasoning stages on end-to-end latency, optimal batching strategies for hybrid pipelines, and the architectural implications of remote KV cache retrieval. HERMES empowers system designers to navigate the evolving landscape of LLM inference, providing actionable insights into optimizing hardware-software co-design for next-generation AI workloads.
Abstract（参考訳）: 大規模言語モデル(LLM)の急速な進化により、ますます洗練された推論パイプラインとハードウェアプラットフォームの必要性が高まっている。現代のLLMは、従来のプリフィル・デコードワークフローを超えて拡張されており、Retrieval Augmented Generation (RAG)、キー値(KV)キャッシュの検索、動的モデルルーティング、マルチステップ推論などのマルチステージプロセスが組み込まれている。これらのステージは様々な計算要求を示し、GPU、ASIC、CPU、メモリ中心アーキテクチャを統合する分散システムを必要とする。しかし、既存のシミュレータには、これらの異種多エンジンワークフローをモデル化するための忠実さが欠けており、アーキテクチャ上の決定を伝達する能力が制限されている。このギャップに対処するために,不均一な多段LPM推論実行シミュレータであるHERMESを紹介する。 HERMESは、RAG、KV検索、推論、プリフィル、複雑なハードウェア階層間のデコードなど、さまざまな要求ステージをモデル化する。 HERMESは、先進的なバッチ戦略とマルチレベルメモリ階層を取り入れながら、以前のフレームワークとは異なり、複数のモデルを同時に実行する異種クライアントをサポートする。実際のハードウェアトレースと分析モデルを統合することで、HERMESは、メモリ帯域幅の競合、クラスタ間通信レイテンシ、ハイブリッドCPU-アクセラレータデプロイメントにおけるバッチ処理効率といった重要なトレードオフをキャプチャする。ケーススタディを通じて、推論ステージがエンドツーエンドのレイテンシ、ハイブリッドパイプラインの最適なバッチ戦略、リモートKVキャッシュ検索のアーキテクチャ的影響について検討する。 HERMESは、LLM推論の進化するランドスケープをナビゲートし、次世代AIワークロードのためのハードウェアとソフトウェアの共同設計の最適化に関する実用的な洞察を提供する。

関連論文リスト

Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文参考訳（メタデータ） (2025-05-28T14:03:02Z)
Automatic Operator-level Parallelism Planning for Distributed Deep Learning -- A Mixed-Integer Programming Approach [6.449961842220686]
本稿では,最適性と計算効率のバランスをとる二段階のソリューションフレームワークを提案する。我々のフレームワークは、同等または優れた性能を実現し、同じメモリ制約下で計算バブルを半分に減らします。このような能力は、最適な並列化戦略を探求するための貴重な研究ツールであり、大規模なAIデプロイメントのための実践的な産業ソリューションである。
論文参考訳（メタデータ） (2025-03-12T13:00:29Z)
SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。コードとモデルはリリースされます。
論文参考訳（メタデータ） (2024-12-12T18:59:26Z)
Survey and Evaluation of Converging Architecture in LLMs based on Footsteps of Operations [3.355436702348694]
現在の最先端のLSMは非常に大きく、パラメータは約700億である。モデルのサイズが大きくなるにつれて、かなりのストレージと計算能力の需要が増大する。本稿では,レイヤ構成,運用機構,モデルサイズの観点から,これらの収束アーキテクチャがどのように機能するかを解析する。
論文参考訳（メタデータ） (2024-10-15T08:19:24Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
Performance Modeling and Workload Analysis of Distributed Large Language Model Training and Inference [2.2231908139555734]
本稿では,分散LLMトレーニングと推論の一般的な性能モデリング手法とワークロード解析を提案する。文献や関連業界ベンダ(NVIDIAなど)の公開データによるパフォーマンス予測を検証する。
論文参考訳（メタデータ） (2024-07-19T19:49:05Z)
Inference Optimization of Foundation Models on AI Accelerators [68.24450520773688]
トランスフォーマーアーキテクチャを備えた大規模言語モデル(LLM)を含む強力な基礎モデルは、ジェネレーティブAIの新たな時代を支えている。モデルパラメータの数が数十億に達すると、実際のシナリオにおける推論コストと高いレイテンシーが排除される。このチュートリアルでは、AIアクセラレータを用いた補完推論最適化テクニックに関する包括的な議論を行っている。
論文参考訳（メタデータ） (2024-07-12T09:24:34Z)
Demystifying AI Platform Design for Distributed Inference of Next-Generation LLM models [8.02264001053969]
大きな言語モデル(LLM)は、広範囲のアプリケーションで顕著なパフォーマンスを示しており、しばしば人間の専門家よりも優れています。 LLMの継続的なイノベーションが最適化に役立ち、モデルアーキテクチャはブレークネックスピードで進化しているため、サービスレベルオブジェクト(SLO)を満たすためのハードウェア要件は、オープンな研究課題のままである。我々は、多様なLLMモデルアーキテクチャとAIプラットフォーム設計パラメータの関係を効率的にナビゲートする分析ツールGenZを提案する。
論文参考訳（メタデータ） (2024-06-03T18:00:50Z)
Mechanistic Design and Scaling of Hybrid Architectures [114.3129802943915]
我々は、様々な計算プリミティブから構築された新しいハイブリッドアーキテクチャを特定し、テストする。本研究では,大規模計算最適法則と新しい状態最適スケーリング法則解析を用いて,結果のアーキテクチャを実験的に検証する。我々は,MAD合成法と計算-最適パープレキシティを相関させ,新しいアーキテクチャの正確な評価を可能にする。
論文参考訳（メタデータ） (2024-03-26T16:33:12Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
Multi-Agent Reinforcement Learning for Microprocessor Design Space Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文参考訳（メタデータ） (2022-11-29T17:10:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。