論文の概要: Taming the Titans: A Survey of Efficient LLM Inference Serving
- arxiv url: http://arxiv.org/abs/2504.19720v1
- Date: Mon, 28 Apr 2025 12:14:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.420693
- Title: Taming the Titans: A Survey of Efficient LLM Inference Serving
- Title(参考訳): タイタンに挑戦する - LLM推論の効率化に関する調査
- Authors: Ranran Zhen, Juntao Li, Yixin Ji, Zhenlin Yang, Tong Liu, Qingrong Xia, Xinyu Duan, Zhefeng Wang, Baoxing Huai, Min Zhang,
- Abstract要約: ジェネレーティブAIのための大規模言語モデル(LLM)は目覚ましい進歩を遂げた。
大量のパラメータによって引き起こされるメモリオーバーヘッドは、アテンション機構の高い計算要求と相まって、大きな課題を生じさせる。
地すべりの研究による最近の進歩は、この分野の進歩を著しく加速している。
- 参考スコア(独自算出の注目度): 33.65474967178607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) for Generative AI have achieved remarkable progress, evolving into sophisticated and versatile tools widely adopted across various domains and applications. However, the substantial memory overhead caused by their vast number of parameters, combined with the high computational demands of the attention mechanism, poses significant challenges in achieving low latency and high throughput for LLM inference services. Recent advancements, driven by groundbreaking research, have significantly accelerated progress in this field. This paper provides a comprehensive survey of these methods, covering fundamental instance-level approaches, in-depth cluster-level strategies, emerging scenario directions, and other miscellaneous but important areas. At the instance level, we review model placement, request scheduling, decoding length prediction, storage management, and the disaggregation paradigm. At the cluster level, we explore GPU cluster deployment, multi-instance load balancing, and cloud service solutions. For emerging scenarios, we organize the discussion around specific tasks, modules, and auxiliary methods. To ensure a holistic overview, we also highlight several niche yet critical areas. Finally, we outline potential research directions to further advance the field of LLM inference serving.
- Abstract(参考訳): ジェネレーティブAIのための大規模言語モデル(LLM)は目覚ましい進歩を遂げ、様々なドメインやアプリケーションに広く採用されている洗練された汎用ツールへと進化した。
しかし、大量のパラメータによって引き起こされるメモリオーバーヘッドとアテンション機構の高い計算要求が組み合わさって、LLM推論サービスにおいて低レイテンシと高スループットを実現する上で大きな課題となる。
地すべりの研究による最近の進歩は、この分野の進歩を著しく加速している。
本稿では,これらの手法を包括的に調査し,基本的なインスタンスレベルのアプローチ,クラスタレベルの詳細な戦略,新たなシナリオの方向性,その他雑多かつ重要な分野について紹介する。
インスタンスレベルでは、モデル配置、要求スケジューリング、デコード長予測、ストレージ管理、デアグリゲーションパラダイムをレビューする。
クラスタレベルでは、GPUクラスタのデプロイメント、マルチインスタンスロードバランシング、クラウドサービスソリューションについて検討する。
新たなシナリオでは、特定のタスクやモジュール、補助的なメソッドに関する議論を組織化します。
全体的な概要を保証するために、いくつかのニッチだが重要な領域を強調します。
最後に、LLM推論サービス分野をさらに進めるために、潜在的研究の方向性を概説する。
関連論文リスト
- Comprehend, Divide, and Conquer: Feature Subspace Exploration via Multi-Agent Hierarchical Reinforcement Learning [10.317489871533565]
本稿では,複雑なデータセットに対する強化学習に基づく部分空間探索戦略であるHRLFSを紹介する。
HRLFSは、反復的な特徴空間探索により、下流機械学習性能を向上させる。
また,HRLFSは関与するエージェントの数を減らし,総実行時間を短縮することを示した。
論文 参考訳(メタデータ) (2025-04-24T08:16:36Z) - On Generalization Across Environments In Multi-Objective Reinforcement Learning [6.686583184622338]
我々は,多目的強化学習(MORL)における一般化の概念を定式化し,その評価方法について述べる。
パラメータ化された環境構成を持つ多目的ドメインを特徴とする新しいベンチマークを提案。
このベンチマークにおける最先端のMORLアルゴリズムのベースライン評価は、限定的な一般化能力を示し、改善の余地があることを示唆している。
論文 参考訳(メタデータ) (2025-03-02T08:50:14Z) - Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。
性能ギャップを実証的に説明するための一連の実験を考案する。
論文 参考訳(メタデータ) (2024-09-27T05:06:43Z) - Towards a Unified View of Preference Learning for Large Language Models: A Survey [88.66719962576005]
大きな言語モデル(LLM)は、非常に強力な能力を示す。
成功するための重要な要因の1つは、LLMの出力を人間の好みに合わせることである。
選好学習のすべての戦略を、モデル、データ、フィードバック、アルゴリズムの4つの構成要素に分解する。
論文 参考訳(メタデータ) (2024-09-04T15:11:55Z) - A Survey on Efficient Inference for Large Language Models [25.572035747669275]
大きな言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスのために、広く注目を集めている。
LLM推論のかなりの計算とメモリ要件は、リソース制約のあるシナリオへの展開に困難をもたらす。
本稿では,LLMの効率的な推論について,既存の文献を包括的に調査する。
論文 参考訳(メタデータ) (2024-04-22T15:53:08Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - The Efficiency Spectrum of Large Language Models: An Algorithmic Survey [54.19942426544731]
LLM(Large Language Models)の急速な成長は、様々なドメインを変換する原動力となっている。
本稿では,LLMのエンドツーエンドのアルゴリズム開発に不可欠な多面的効率性について検討する。
論文 参考訳(メタデータ) (2023-12-01T16:00:25Z) - Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。
広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。
しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文 参考訳(メタデータ) (2023-05-30T03:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。