論文の概要: High-Throughput LLM inference on Heterogeneous Clusters
- arxiv url: http://arxiv.org/abs/2504.15303v1
- Date: Fri, 18 Apr 2025 08:59:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-01 02:20:16.196027
- Title: High-Throughput LLM inference on Heterogeneous Clusters
- Title(参考訳): 異種クラスター上の高速LDM推定
- Authors: Yi Xiong, Jinqi Huang, Wenjie Huang, Xuebing Yu, Entong Li, Zhixiong Ning, Jinhua Zhou, Li Zeng, Xin Chen,
- Abstract要約: 異種クラスタ上での大規模言語モデル(LLM)推論には,2つの大きな課題がある。
さまざまなインスタンスの異なる処理能力を十分に考慮した,インスタンス間のリクエストスケジュールの新たなメカニズムが提案されている。
大規模な実験により、提案されたスケジューラは、2つの異種クラスタ上で122.5%と33.6%のスループットを向上させることが示された。
- 参考スコア(独自算出の注目度): 6.11367906161332
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nowadays, many companies possess various types of AI accelerators, forming heterogeneous clusters. Efficiently leveraging these clusters for high-throughput large language model (LLM) inference services can significantly reduce costs and expedite task processing. However, LLM inference on heterogeneous clusters presents two main challenges. Firstly, different deployment configurations can result in vastly different performance. The number of possible configurations is large, and evaluating the effectiveness of a specific setup is complex. Thus, finding an optimal configuration is not an easy task. Secondly, LLM inference instances within a heterogeneous cluster possess varying processing capacities, leading to different processing speeds for handling inference requests. Evaluating these capacities and designing a request scheduling algorithm that fully maximizes the potential of each instance is challenging. In this paper, we propose a high-throughput inference service system on heterogeneous clusters. First, the deployment configuration is optimized by modeling the resource amount and expected throughput and using the exhaustive search method. Second, a novel mechanism is proposed to schedule requests among instances, which fully considers the different processing capabilities of various instances. Extensive experiments show that the proposed scheduler improves throughput by 122.5% and 33.6% on two heterogeneous clusters, respectively.
- Abstract(参考訳): 今日では、多くの企業がさまざまなタイプのAIアクセラレータを所有し、異種クラスタを形成している。
これらのクラスタを高スループット大言語モデル(LLM)推論サービスに効率的に活用することで、コストを大幅に削減し、タスク処理を高速化することができる。
しかし、ヘテロジニアスクラスタ上でのLLM推論には2つの大きな課題がある。
第一に、異なるデプロイメント構成は、非常に異なるパフォーマンスをもたらす可能性がある。
可能な構成の数は多く、特定の設定の有効性を評価することは複雑である。
したがって、最適な構成を見つけることは簡単な作業ではない。
第2に、異種クラスタ内のLLM推論インスタンスは、異なる処理能力を持ち、推論要求を処理するための処理速度が異なる。
これらの能力を評価し、各インスタンスの可能性を完全に最大化する要求スケジューリングアルゴリズムを設計することは難しい。
本稿では,異種クラスタ上での高スループット推論サービスシステムを提案する。
まず、リソース量と期待されるスループットをモデル化し、徹底的な探索手法を用いて配置構成を最適化する。
第二に、さまざまなインスタンスの異なる処理能力を十分に考慮した、インスタンス間で要求をスケジュールする新しいメカニズムが提案されている。
大規模な実験により、提案されたスケジューラは、2つの異種クラスタでそれぞれ122.5%と33.6%のスループット向上を実現している。
関連論文リスト
- Multi Activity Sequence Alignment via Implicit Clustering [50.3168866743067]
暗黙のクラスタリングによるシーケンスアライメントによる制約を克服する新しいフレームワークを提案する。
具体的には、列内のフレームをアライメントしながら、暗黙的なクリップレベルのクラスタリングを行うという考え方です。
実験の結果,提案手法は最先端の結果よりも優れていた。
論文 参考訳(メタデータ) (2025-03-16T14:28:46Z) - Make Optimization Once and for All with Fine-grained Guidance [78.14885351827232]
Learning to Optimize (L2O)は、統合ニューラルネットワークによる最適化効率を向上させる。
L2Oパラダイムは、例えば、リフィット、目に見えない解決策を反復的または直接的に生成するなど、大きな成果を達成する。
そこで本研究では,Diff-L2Oと呼ばれる学習最適化のための一般的なフレームワークについて検討した。
論文 参考訳(メタデータ) (2025-03-14T14:48:12Z) - A3S: A General Active Clustering Method with Pairwise Constraints [66.74627463101837]
A3Sは、適応クラスタリングアルゴリズムによって得られる初期クラスタ結果に対して、戦略的にアクティブクラスタリングを調整する。
さまざまな実世界のデータセットにわたる広範な実験において、A3Sは、人間のクエリを著しく少なくして、望ましい結果を達成する。
論文 参考訳(メタデータ) (2024-07-14T13:37:03Z) - Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。
本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。
オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文 参考訳(メタデータ) (2024-03-21T13:52:30Z) - Sample-Efficient "Clustering and Conquer" Procedures for Parallel Large-Scale Ranking and Selection [0.0]
並列コンピューティングにおいてよく使われる「分割と征服」フレームワークを,相関に基づくクラスタリングのステップを追加して修正する。
この一見単純な修正は、広く使われている大規模R&Sプロシージャの効率的なクラスに対して最適なサンプル複雑性の低減を実現する。
ニューラルネットワーク探索のような大規模AIアプリケーションでは,本手法は優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-03T15:56:03Z) - End-to-end Learnable Clustering for Intent Learning in Recommendation [54.157784572994316]
我々は、アンダーラインELCRecと呼ばれる新しい意図学習手法を提案する。
振る舞い表現学習をUnderlineEnd-to-end UnderlineLearnable UnderlineClusteringフレームワークに統合する。
1億3000万ページビューの産業レコメンデーションシステムに本手法をデプロイし,有望な結果を得る。
論文 参考訳(メタデータ) (2024-01-11T15:22:55Z) - Efficient and Effective Deep Multi-view Subspace Clustering [9.6753782215283]
E$2$MVSC(Efficient and Effective Deep Multi-View Subspace Clustering)と呼ばれる新しいディープフレームワークを提案する。
パラメータ化されたFC層の代わりに、より計算効率のよいサンプル数からネットワークパラメータスケールを分離するRelation-Metric Netを設計する。
E$2$MVSCは既存のメソッドに匹敵する結果を出し、様々なタイプのマルチビューデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-10-15T03:08:25Z) - One-step Multi-view Clustering with Diverse Representation [47.41455937479201]
本稿では,多視点学習と$k$-meansを統合フレームワークに組み込んだ一段階のマルチビュークラスタリングを提案する。
そこで本研究では,効率の良い最適化アルゴリズムを開発し,その解法について述べる。
論文 参考訳(メタデータ) (2023-06-08T02:52:24Z) - Self-Learning Symmetric Multi-view Probabilistic Clustering [35.96327818838784]
マルチビュークラスタリング(MVC)は、複数の視点から知識を学ぶための多くの取り組みによって、大きな進歩を遂げている。
既存のほとんどのメソッドは適用できないか、あるいは不完全なMVCに追加の手順を必要とする。
自己学習対称多視点確率クラスタリングという,不完全かつ完全なMVCのための新しい統合フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-12T08:27:03Z) - COMET: A Comprehensive Cluster Design Methodology for Distributed Deep Learning Training [42.514897110537596]
現代のディープラーニング(DL)モデルは、トレーニングする専門的でハイエンドなノードの大規模なクラスタを必要とするサイズに成長しています。
このようなクラスタを設計してパフォーマンスと利用の両方を最大化します。
本稿では,並列化戦略と鍵クラスタリソースのプロビジョニングが分散DLトレーニングのパフォーマンスに与える影響を共同で研究する,総合的なクラスタ設計方法論とワークフローであるCOMETを紹介する。
論文 参考訳(メタデータ) (2022-11-30T00:32:37Z) - Semisoft Task Clustering for Multi-Task Learning [2.806911268410107]
マルチタスク学習(MTL)は、複数の関連する予測タスクの性能を向上させることを目的としている。
そこで本研究では,タスククラスタリング構造を半ソフトなタスククラスタリング手法として提案する。
合成および実世界のデータセットに基づく実験結果は,提案手法の有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-11-28T07:23:56Z) - Late Fusion Multi-view Clustering via Global and Local Alignment
Maximization [61.89218392703043]
マルチビュークラスタリング(MVC)は、異なるビューからの補完情報を最適に統合し、クラスタリング性能を改善する。
既存のアプローチの多くは、クラスタリングに最適な類似性行列を学ぶために、複数の事前定義された類似性を直接融合する。
これらの問題に対処するために、アライメントを通してレイトフュージョンMVCを提案する。
論文 参考訳(メタデータ) (2022-08-02T01:49:31Z) - Conjugate Mixture Models for Clustering Multimodal Data [24.640116037967985]
マルチモーダルクラスタリングの問題は、データが物理的に異なるセンサーで収集されるたびに発生する。
マルチモーダルクラスタリングは,新しいフレームワーク,すなわち共役混合モデル内で対処できることを示す。
論文 参考訳(メタデータ) (2020-12-09T10:13:22Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。