論文の概要: A Data-driven ML Approach for Maximizing Performance in LLM-Adapter Serving
- arxiv url: http://arxiv.org/abs/2508.08343v2
- Date: Mon, 27 Oct 2025 14:59:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.745534
- Title: A Data-driven ML Approach for Maximizing Performance in LLM-Adapter Serving
- Title(参考訳): LLM-Adapter Servingにおけるデータ駆動型MLによる性能最大化
- Authors: Ferran Agullo, Joan Oliveras, Chen Wang, Alberto Gutierrez-Torre, Olivier Tardieu, Alaa Youssef, Jordi Torres, Josep Ll. Berral,
- Abstract要約: 本研究では、飢餓を引き起こすことなくGPUスループットを最大化する並列アダプタと並列アダプタの結合構成を決定することに焦点を当てる。
このキャッシュ問題に対処するために、解釈可能なモデルを活用するデータ駆動型MLアプローチを提案する。
vLLMフレームワークとLoRAアダプタによる実験では、Digital Twinは実際の結果の5.1%以内のスループットを再現している。
- 参考スコア(独自算出の注目度): 2.6336040306318274
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the rapid adoption of Large Language Models (LLMs), LLM-adapters have become increasingly common, providing lightweight specialization of large-scale models. Serving hundreds or thousands of these adapters on a single GPU allows request aggregation, increasing throughput, but may also cause request starvation if GPU memory limits are exceeded. To address this issue, this study focuses on determining the joint configuration of concurrent and parallel adapters that maximizes GPU throughput without inducing starvation, given heterogeneous adapter and traffic properties. We propose a data-driven ML approach leveraging interpretable models to tackle this caching problem and introduce the first Digital Twin capable of reproducing an LLM-adapter serving system, enabling efficient training data generation. Experiments with the vLLM framework and LoRA adapters show that the Digital Twin reproduces throughput within 5.1% of real results, while the ML approach predicts optimal numbers of concurrent and parallel adapters with an error of at most 7.2% under heterogeneous, real-world workloads.
- Abstract(参考訳): LLM(Large Language Models)の急速な普及に伴い、LLMアダプタはますます一般的になり、大規模モデルの軽量な特殊化を実現している。
単一のGPU上で数百から数千のアダプタを実行することで、リクエストアグリゲーションが可能になり、スループットが向上するが、GPUメモリ制限が超過すれば、要求の飢餓を引き起こす可能性がある。
この問題に対処するために、異種アダプタとトラフィック特性が与えられた場合、飢餓を引き起こすことなくGPUスループットを最大化する並列アダプタと並列アダプタの結合構成を決定することに焦点を当てる。
本稿では,このキャッシュ問題に対処するために,解釈可能なモデルを活用するデータ駆動型ML手法を提案する。
vLLMフレームワークとLoRAアダプタによる実験では、Digital Twinは実際の結果の5.1%以内のスループットを再現する一方で、MLアプローチでは、異質な実世界のワークロード下では、エラーが少なくとも7.2%である並列および並列のアダプタの最適な数を予測している。
関連論文リスト
- EdgeLoRA: An Efficient Multi-Tenant LLM Serving System on Edge Devices [7.596547050649462]
本稿では,マルチテナント環境におけるエッジデバイス上での大規模言語モデル(LLM)の効率的な提供システムであるEdgeLoRAを紹介する。
EdgeLoRAは、(1)アダプタ設定プロセスを合理化するための適応型アダプタ選択機構、(2)インテリジェントなアダプタキャッシュとプーリングを活用してメモリ操作のオーバーヘッドを軽減する不均一なメモリ管理、(3)効率的なバッチ処理を可能にして計算遅延を大幅に削減するバッチLoRA推論という3つの重要なイノベーションを取り入れている。
論文 参考訳(メタデータ) (2025-07-02T07:47:28Z) - Small Aid, Big Leap: Efficient Test-Time Adaptation for Vision-Language Models with AdaptNet [5.977269026037707]
テスト時適応(TTA)は、推論中に視覚言語モデル(VLM)の一般化能力を高める重要な手法として登場した。
本稿では,より軽量で学習しやすいAdaptNetを活用して,効率よくスケーラブルなモデル適応を実現する,新しいアダプタベースのTTAフレームワークであるSAILを紹介する。
論文 参考訳(メタデータ) (2025-06-03T09:16:51Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - Towards Optimal Adapter Placement for Efficient Transfer Learning [73.1149084352343]
PETLは、トレーニング済みモデルを新しい下流タスクに適用し、微調整されたパラメータの数を最小化することを目的としている。
PETLの一般的なアプローチであるアダプタは、低ランクのプロジェクションを組み込むことで、既存のネットワークにさらなる容量を注入する。
本稿では,アダプタの配置と性能の関係について検討する。
論文 参考訳(メタデータ) (2024-10-21T10:37:17Z) - Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System [75.25394449773052]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は協調的問題解決において顕著な可能性を示している。
通信効率の低下、スケーラビリティの低下、効果的なパラメータ更新方法の欠如などです。
本稿では,コミュニケーション効率とタスク効率を両立させ,これらの課題に対処する新しいフレームワークOptimaを提案する。
論文 参考訳(メタデータ) (2024-10-10T17:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。