論文の概要: Towards Efficient Generative Large Language Model Serving: A Survey from
Algorithms to Systems
- arxiv url: http://arxiv.org/abs/2312.15234v1
- Date: Sat, 23 Dec 2023 11:57:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 19:00:04.786560
- Title: Towards Efficient Generative Large Language Model Serving: A Survey from
Algorithms to Systems
- Title(参考訳): 効率的生成型大規模言語モデルの実現に向けて:アルゴリズムからシステムへ
- Authors: Xupeng Miao, Gabriele Oliaro, Zhihao Zhang, Xinhao Cheng, Hongyi Jin,
Tianqi Chen, Zhihao Jia
- Abstract要約: 生成型大規模言語モデル(LLM)が最前線に立ち、データとのインタラクション方法に革命をもたらします。
しかし、これらのモデルをデプロイする際の計算強度とメモリ消費は、効率性の観点から大きな課題を呈している。
本研究は,機械学習システム(MLSys)研究の観点から,効率的なLCM提供手法の必要性について考察する。
- 参考スコア(独自算出の注目度): 14.355768064425598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the rapidly evolving landscape of artificial intelligence (AI), generative
large language models (LLMs) stand at the forefront, revolutionizing how we
interact with our data. However, the computational intensity and memory
consumption of deploying these models present substantial challenges in terms
of serving efficiency, particularly in scenarios demanding low latency and high
throughput. This survey addresses the imperative need for efficient LLM serving
methodologies from a machine learning system (MLSys) research perspective,
standing at the crux of advanced AI innovations and practical system
optimizations. We provide in-depth analysis, covering a spectrum of solutions,
ranging from cutting-edge algorithmic modifications to groundbreaking changes
in system designs. The survey aims to provide a comprehensive understanding of
the current state and future directions in efficient LLM serving, offering
valuable insights for researchers and practitioners in overcoming the barriers
of effective LLM deployment, thereby reshaping the future of AI.
- Abstract(参考訳): 人工知能(AI)の急速な発展の中で、生成型大規模言語モデル(LLM)が最前線に立ち、私たちのデータとのインタラクション方法に革命をもたらした。
しかしながら、これらのモデルのデプロイの計算強度とメモリ消費は、特に低レイテンシと高スループットを要求するシナリオにおいて、サービス効率の面で大きな課題をもたらす。
この調査は、機械学習システム(MLSys)研究の観点から、AIの先進的な革新と実用的なシステム最適化の最前線に立つ、効率的なLLMサービス方法論の必要性に対処する。
我々は,最先端のアルゴリズム修正からシステム設計の画期的な変化まで,ソリューションのスペクトルをカバーする詳細な分析を提供する。
この調査は、効率的なLLM提供における現在の状況と今後の方向性を包括的に理解することを目的としており、効果的なLLMデプロイメントの障壁を克服する上で、研究者や実践者に貴重な洞察を提供することにより、AIの将来を再構築する。
関連論文リスト
- Characterization of Large Language Model Development in the Datacenter [57.49531095113406]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [64.33702161898469]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - The Efficiency Spectrum of Large Language Models: An Algorithmic Survey [56.00281164118548]
LLM(Large Language Models)の急速な成長は、様々なドメインを変換する原動力となっている。
本稿では,LLMのエンドツーエンドのアルゴリズム開発に不可欠な多面的効率性について検討する。
論文 参考訳(メタデータ) (2023-12-01T16:00:25Z) - A Survey of Serverless Machine Learning Model Inference [0.0]
ジェネレーティブAI、コンピュータビジョン、自然言語処理は、AIモデルをさまざまな製品に統合するきっかけとなった。
本調査は,大規模ディープラーニングサービスシステムにおける新たな課題と最適化の機会を要約し,分類することを目的としている。
論文 参考訳(メタデータ) (2023-11-22T18:46:05Z) - A Study on the Implementation of Generative AI Services Using an
Enterprise Data-Based LLM Application Architecture [0.0]
本研究では,Large Language Models (LLM) アプリケーションアーキテクチャを用いて生成AIサービスを実装する手法を提案する。
この研究は、不十分なデータの問題を軽減するための戦略を練り上げ、カスタマイズされたソリューションを提供している。
この研究の重要な貢献は、検索型拡張世代(RAG)モデルの開発である。
論文 参考訳(メタデータ) (2023-09-03T07:03:17Z) - Automatically Correcting Large Language Models: Surveying the landscape
of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。
これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。
本稿では,この新技術について概観する。
論文 参考訳(メタデータ) (2023-08-06T18:38:52Z) - A Survey on Large-scale Machine Learning [67.6997613600942]
機械学習はデータに対する深い洞察を与え、マシンが高品質な予測を行うことを可能にする。
ほとんどの高度な機械学習アプローチは、大規模なデータを扱う場合の膨大な時間コストに悩まされる。
大規模機械学習は、ビッグデータからパターンを、同等のパフォーマンスで効率的に学習することを目的としている。
論文 参考訳(メタデータ) (2020-08-10T06:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。