Fugu-MT 論文翻訳(概要): SplitLLM: Collaborative Inference of LLMs for Model Placement and Throughput Optimization

論文の概要: SplitLLM: Collaborative Inference of LLMs for Model Placement and Throughput Optimization

arxiv url: http://arxiv.org/abs/2410.10759v1
Date: Wed, 16 Oct 2024 16:31:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-29 19:44:46.643400
Title: SplitLLM: Collaborative Inference of LLMs for Model Placement and Throughput Optimization
Title（参考訳）: SplitLLM:モデル配置とスループット最適化のためのLLMの協調推論
Authors: Akrit Mudvari, Yuang Jiang, Leandros Tassiulas,
Abstract要約: 大きな言語モデル(LLM)は、人間のようなテキストを理解し、生成する能力のために、私たちの日常生活において重要な役割を担います。本稿では,サーバとクライアント間の協調推論アーキテクチャを設計し,スループットの限界を緩和する。実験では、サーバのワークロードを約1/3削減できるように、効率よくワークロードを分散できることを示した。
参考スコア（独自算出の注目度）: 8.121663525764294
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have been a disruptive innovation in recent years, and they play a crucial role in our daily lives due to their ability to understand and generate human-like text. Their capabilities include natural language understanding, information retrieval and search, translation, chatbots, virtual assistance, and many more. However, it is well known that LLMs are massive in terms of the number of parameters. Additionally, the self-attention mechanism in the underlying architecture of LLMs, Transformers, has quadratic complexity in terms of both computation and memory with respect to the input sequence length. For these reasons, LLM inference is resource-intensive, and thus, the throughput of LLM inference is limited, especially for the longer sequences. In this report, we design a collaborative inference architecture between a server and its clients to alleviate the throughput limit. In this design, we consider the available resources on both sides, i.e., the computation and communication costs. We develop a dynamic programming-based algorithm to optimally allocate computation between the server and the client device to increase the server throughput, while not violating the service level agreement (SLA). We show in the experiments that we are able to efficiently distribute the workload allowing for roughly 1/3 reduction in the server workload, while achieving 19 percent improvement over a greedy method. As a result, we are able to demonstrate that, in an environment with different types of LLM inference requests, the throughput of the server is improved.
Abstract（参考訳）: 大規模な言語モデル(LLM)は近年、破壊的な革新であり、人間のようなテキストを理解し、生成する能力のために、日々の生活において重要な役割を担っています。その機能には自然言語の理解、情報検索と検索、翻訳、チャットボット、バーチャルアシスタントなどが含まれている。しかし、LLMがパラメータの数で大きすぎることはよく知られている。さらに、LLMの基盤となるアーキテクチャであるTransformersの自己アテンション機構は、入力シーケンス長に関する計算とメモリの両面で2次複雑さを持つ。これらの理由から, LLM推論は資源集約的であり, LLM推論のスループットは特に長いシーケンスにおいて制限される。本稿では,サーバとクライアント間の協調推論アーキテクチャを設計し,スループットの限界を緩和する。この設計では、両サイドで利用可能なリソース、すなわち計算と通信のコストを考慮する。サービスレベル合意(SLA)に違反することなく、サーバとクライアントデバイス間の計算を最適に割り当て、サーバのスループットを向上する動的プログラミングベースのアルゴリズムを開発した。実験では、負荷を効率よく分散し、サーバの負荷を約1/3削減できるとともに、グレディな方法よりも19%改善できることを示した。その結果、異なるタイプのLLM推論要求のある環境では、サーバのスループットが向上することを示した。

関連論文リスト

Federated Learning-Enabled Hybrid Language Models for Communication-Efficient Token Transmission [87.68447072141402]
ハイブリッド言語モデル(HLM)は、エッジデバイス上でのSLM(Small Language Model)の低レイテンシ効率と、集中型サーバ上でのLLM(Large Language Model)の高精度を組み合わせたものである。我々は、不確実性を考慮した推論とフェデレートラーニング(FL)を統合する通信効率の高いHLMフレームワークであるFedHLMを提案する。
論文参考訳（メタデータ） (2025-06-30T02:56:11Z)
Reinforcement Learning for Long-Horizon Interactive LLM Agents [56.9860859585028]
インタラクティブデジタルエージェント(IDA)は、ステートフルなデジタル環境のAPIを利用して、ユーザの要求に応じてタスクを実行する。対象環境で直接IDAを訓練する強化学習(RL)手法を提案する。我々は、近似ポリシー最適化のデータおよびメモリ効率の亜種である LOOP を導出する。
論文参考訳（メタデータ） (2025-02-03T18:35:42Z)
Federated In-Context LLM Agent Learning [3.4757641432843487]
大規模言語モデル(LLM)は、論理的推論、ツールの使用、エージェントとしての外部システムとの相互作用を可能にすることによって、インテリジェントなサービスに革命をもたらした。本稿では,プライバシ保護型フェデレーション・イン・コンテクスト LLM Agent Learning (FICAL) アルゴリズムを提案する。その結果、FICALは、他のSOTAベースラインと比較して競争性能が優れており、通信コストの大幅な削減は、$mathbf3.33times105$倍であることがわかった。
論文参考訳（メタデータ） (2024-12-11T03:00:24Z)
DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。 DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文参考訳（メタデータ） (2024-11-04T18:26:08Z)
SVIP: Towards Verifiable Inference of Open-source Large Language Models [33.910670775972335]
オープンソースのLarge Language Models (LLMs)は、最近、自然言語の理解と生成において顕著な能力を示し、様々な領域で広く採用されている。モデルのサイズが大きくなることで、個々のユーザにとってローカルデプロイメントは現実的ではなく、ブラックボックスAPIを通じて推論を行うコンピューティングサービスプロバイダに頼らざるを得なくなる。この依存は新たなリスクをもたらす: コンピューティングプロバイダは、要求されたLLMをユーザからの同意なく、より小さく、能力の低いモデルにステルス的に置き換えて、コスト削減の恩恵を受けながら、劣ったアウトプットを配信する。
論文参考訳（メタデータ） (2024-10-29T17:52:45Z)
Skipping Computations in Multimodal LLMs [63.29737699997859]
本研究では,マルチモーダル大言語モデル(MLLM)における推論時の冗長性について検討する。ブロック全体,FFN,自己保持層をスキップするなど,計算をスキップするさまざまな手法を提案する。本研究は,推定時に大量の計算を回避できることを実証した。
論文参考訳（メタデータ） (2024-10-12T09:21:45Z)
Large Language Models and the Extended Church-Turing Thesis [0.0]
本稿では,計算可能性理論と計算複雑性理論を用いて,大規模言語モデル(LLM)の計算能力について検討する。固定的な(非適応的な) LLM は、計算量的に a, probably large, deterministic finite-state transducer と同値であることを示す。本研究は,いくつかの関連分野と哲学の幅広い文脈における知見のメリットについて論じる。
論文参考訳（メタデータ） (2024-09-11T03:09:55Z)
Efficiency Unleashed: Inference Acceleration for LLM-based Recommender Systems with Speculative Decoding [61.45448947483328]
LLMベースのレコメンダシステム(LASER)の投機的復号化によるロスレス高速化について紹介する。 LASERは、検索効率を高めるためのカスタマイズされた検索プールと、ドラフトトークンの受け入れ率を改善するための緩和検証を備えている。 LASERは公開データセットの3～5倍のスピードアップを実現し、オンラインA/Bテスト中に約67%の計算リソースを節約する。
論文参考訳（メタデータ） (2024-08-11T02:31:13Z)
Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文参考訳（メタデータ） (2024-06-14T19:24:00Z)
Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。 Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文参考訳（メタデータ） (2024-05-23T08:33:19Z)
Optimizing LLM Queries in Relational Workloads [58.254894049950366]
本稿では,LLMをリレーショナルクエリ内で実行する解析処理に対して,LLM(Large Language Models)推論を最適化する方法を示す。私たちはこれらの最適化をApache Sparkで実装し、vLLMをバックエンドとして提供しています。実データセット上の多様なLLMベースのクエリのベンチマークで、エンドツーエンドのレイテンシを最大4.4倍改善する。
論文参考訳（メタデータ） (2024-03-09T07:01:44Z)
InferCept: Efficient Intercept Support for Augmented Large Language Model Inference [9.669098954493114]
本稿では,拡張LDMを対象とした最初のLLM推論フレームワークであるInferCeptについて述べる。 InferCeptは、LLMインターセプションによるGPUリソースの無駄を最小化し、より多くのリクエストを処理するために保存されたメモリを割り当てる。 InferCeptはサービス全体のスループットを1.6x-2x改善し、最先端のLCM推論システムと比較して毎秒2倍のリクエストを処理します。
論文参考訳（メタデータ） (2024-02-02T19:47:57Z)
Exploring Parameter-Efficient Fine-Tuning Techniques for Code Generation with Large Language Models [11.845239346943067]
パラメータ効率のよい微調整(PEFT)は、大規模言語モデル(LLM)をタスク固有のデータに効率的に専門化するための有望なアプローチである。本研究は,PEFTと量子化を組み合わせることで,より大きなLCMをチューニングし,メモリ使用量を大幅に削減する可能性を明らかにする。
論文参考訳（メタデータ） (2023-08-21T04:31:06Z)
Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文参考訳（メタデータ） (2023-05-22T15:36:06Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。