論文の概要: A Survey on Inference Engines for Large Language Models: Perspectives on Optimization and Efficiency
- arxiv url: http://arxiv.org/abs/2505.01658v2
- Date: Thu, 08 May 2025 07:08:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 13:13:47.794408
- Title: A Survey on Inference Engines for Large Language Models: Perspectives on Optimization and Efficiency
- Title(参考訳): 大規模言語モデルの推論エンジンに関する調査:最適化と効率性の観点から
- Authors: Sihyeong Park, Sungryeol Jeon, Chaelyn Lee, Seokhun Jeon, Byung-Soo Kim, Jemin Lee,
- Abstract要約: 本稿では,25個のオープンソースおよび商用推論エンジンの総合評価を行う。
本稿では,各推論エンジンについて,スループットとレイテンシを考慮した計算における使いやすさ,使いやすさ,汎用サポート,スケーラビリティ,適合性の観点から検討する。
- 参考スコア(独自算出の注目度): 11.82688729820324
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) are widely applied in chatbots, code generators, and search engines. Workloads such as chain-of-thought, complex reasoning, and agent services significantly increase the inference cost by invoking the model repeatedly. Optimization methods such as parallelism, compression, and caching have been adopted to reduce costs, but the diverse service requirements make it hard to select the right method. Recently, specialized LLM inference engines have emerged as a key component for integrating the optimization methods into service-oriented infrastructures. However, a systematic study on inference engines is still lacking. This paper provides a comprehensive evaluation of 25 open-source and commercial inference engines. We examine each inference engine in terms of ease-of-use, ease-of-deployment, general-purpose support, scalability, and suitability for throughput- and latency-aware computation. Furthermore, we explore the design goals of each inference engine by investigating the optimization techniques it supports. In addition, we assess the ecosystem maturity of open source inference engines and handle the performance and cost policy of commercial solutions. We outline future research directions that include support for complex LLM-based services, support of various hardware, and enhanced security, offering practical guidance to researchers and developers in selecting and designing optimized LLM inference engines. We also provide a public repository to continually track developments in this fast-evolving field: https://github.com/sihyeong/Awesome-LLM-Inference-Engine
- Abstract(参考訳): 大規模言語モデル(LLM)は、チャットボット、コードジェネレータ、検索エンジンに広く応用されている。
チェーン・オブ・ソート、複雑な推論、エージェントサービスといったワークロードは、モデルを繰り返し呼び出すことで推論コストを大幅に増加させます。
並列性、圧縮、キャッシュといった最適化手法がコスト削減のために採用されているが、多様なサービス要件により、適切な方法を選択するのは困難である。
近年,最適化手法をサービス指向インフラストラクチャに統合するための重要なコンポーネントとして,特殊LLM推論エンジンが登場している。
しかし、推論エンジンに関する体系的な研究はいまだに欠けている。
本稿では,25個のオープンソースおよび商用推論エンジンの総合評価を行う。
本稿では,各推論エンジンについて,スループットとレイテンシを考慮した計算における使いやすさ,使いやすさ,汎用サポート,スケーラビリティ,適合性の観点から検討する。
さらに,提案する最適化手法を検証し,各推論エンジンの設計目標について検討する。
さらに,オープンソース推論エンジンのエコシステムの成熟度を評価し,商用ソリューションのパフォーマンスとコストポリシを扱う。
我々は、複雑なLCMベースのサービスのサポート、各種ハードウェアのサポート、セキュリティ強化など、将来の研究方針を概説し、最適化LSM推論エンジンの選択と設計について研究者や開発者に実践的なガイダンスを提供する。
私たちはまた、この高速進化の分野での開発を継続的に追跡するパブリックリポジトリも提供しています。
関連論文リスト
- Edge-Cloud Collaborative Computing on Distributed Intelligence and Model Optimization: A Survey [59.52058740470727]
エッジクラウドコラボレーティブコンピューティング(ECCC)は、現代のインテリジェントアプリケーションの計算要求に対処するための重要なパラダイムとして登場した。
AIの最近の進歩、特にディープラーニングと大規模言語モデル(LLM)は、これらの分散システムの能力を劇的に向上させてきた。
この調査は、基本的なアーキテクチャ、技術の実現、新しいアプリケーションに関する構造化されたチュートリアルを提供する。
論文 参考訳(メタデータ) (2025-05-03T13:55:38Z) - A Survey on Inference Optimization Techniques for Mixture of Experts Models [50.40325411764262]
大規模Mixture of Experts(MoE)モデルは、条件計算によるモデル容量と計算効率の向上を提供する。
これらのモデル上で推論をデプロイし実行することは、計算資源、レイテンシ、エネルギー効率において大きな課題を示す。
本調査では,システムスタック全体にわたるMoEモデルの最適化手法について分析する。
論文 参考訳(メタデータ) (2024-12-18T14:11:15Z) - On-Device Language Models: A Comprehensive Review [26.759861320845467]
資源制約のあるデバイスに計算コストの高い大規模言語モデルをデプロイする際の課題について検討する。
論文は、デバイス上での言語モデル、その効率的なアーキテクチャ、および最先端の圧縮技術について考察する。
主要モバイルメーカーによるオンデバイス言語モデルのケーススタディは、実世界の応用と潜在的な利益を実証している。
論文 参考訳(メタデータ) (2024-08-26T03:33:36Z) - Inference Optimization of Foundation Models on AI Accelerators [68.24450520773688]
トランスフォーマーアーキテクチャを備えた大規模言語モデル(LLM)を含む強力な基礎モデルは、ジェネレーティブAIの新たな時代を支えている。
モデルパラメータの数が数十億に達すると、実際のシナリオにおける推論コストと高いレイテンシーが排除される。
このチュートリアルでは、AIアクセラレータを用いた補完推論最適化テクニックに関する包括的な議論を行っている。
論文 参考訳(メタデータ) (2024-07-12T09:24:34Z) - ORLM: A Customizable Framework in Training Large Models for Automated Optimization Modeling [15.67321902882617]
本稿では,オープンソースのLLMをトレーニングし,モデリングやソルバコードの開発を最適化する実行可能なパスを提案する。
この研究は、実用的なOR問題の解決においてLLMを評価するための最初の産業ベンチマークであるIndustrialORも導入した。
論文 参考訳(メタデータ) (2024-05-28T01:55:35Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - Large Language Models for Supply Chain Optimization [4.554094815136834]
大規模言語モデル(LLM)がサプライチェーンの自動化と人間の理解と信頼のギャップを埋めるのにどのように役立つかを検討する。
我々はOptiGuideを設計する。これは平易なテキストで入力クエリとして受け付け、基礎となる結果に関する洞察を出力するフレームワークです。
当社のフレームワークがMicrosoftのクラウドサプライチェーン内の実際のサーバ配置シナリオに与える影響を実演する。
論文 参考訳(メタデータ) (2023-07-08T01:42:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。