論文の概要: A Data-driven ML Approach for Maximizing Performance in LLM-Adapter Serving
- arxiv url: http://arxiv.org/abs/2508.08343v2
- Date: Mon, 27 Oct 2025 14:59:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.745534
- Title: A Data-driven ML Approach for Maximizing Performance in LLM-Adapter Serving
- Title(参考訳): LLM-Adapter Servingにおけるデータ駆動型MLによる性能最大化
- Authors: Ferran Agullo, Joan Oliveras, Chen Wang, Alberto Gutierrez-Torre, Olivier Tardieu, Alaa Youssef, Jordi Torres, Josep Ll. Berral,
- Abstract要約: 本研究では、飢餓を引き起こすことなくGPUスループットを最大化する並列アダプタと並列アダプタの結合構成を決定することに焦点を当てる。
このキャッシュ問題に対処するために、解釈可能なモデルを活用するデータ駆動型MLアプローチを提案する。
vLLMフレームワークとLoRAアダプタによる実験では、Digital Twinは実際の結果の5.1%以内のスループットを再現している。
- 参考スコア(独自算出の注目度): 2.6336040306318274
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the rapid adoption of Large Language Models (LLMs), LLM-adapters have become increasingly common, providing lightweight specialization of large-scale models. Serving hundreds or thousands of these adapters on a single GPU allows request aggregation, increasing throughput, but may also cause request starvation if GPU memory limits are exceeded. To address this issue, this study focuses on determining the joint configuration of concurrent and parallel adapters that maximizes GPU throughput without inducing starvation, given heterogeneous adapter and traffic properties. We propose a data-driven ML approach leveraging interpretable models to tackle this caching problem and introduce the first Digital Twin capable of reproducing an LLM-adapter serving system, enabling efficient training data generation. Experiments with the vLLM framework and LoRA adapters show that the Digital Twin reproduces throughput within 5.1% of real results, while the ML approach predicts optimal numbers of concurrent and parallel adapters with an error of at most 7.2% under heterogeneous, real-world workloads.
- Abstract(参考訳): LLM(Large Language Models)の急速な普及に伴い、LLMアダプタはますます一般的になり、大規模モデルの軽量な特殊化を実現している。
単一のGPU上で数百から数千のアダプタを実行することで、リクエストアグリゲーションが可能になり、スループットが向上するが、GPUメモリ制限が超過すれば、要求の飢餓を引き起こす可能性がある。
この問題に対処するために、異種アダプタとトラフィック特性が与えられた場合、飢餓を引き起こすことなくGPUスループットを最大化する並列アダプタと並列アダプタの結合構成を決定することに焦点を当てる。
本稿では,このキャッシュ問題に対処するために,解釈可能なモデルを活用するデータ駆動型ML手法を提案する。
vLLMフレームワークとLoRAアダプタによる実験では、Digital Twinは実際の結果の5.1%以内のスループットを再現する一方で、MLアプローチでは、異質な実世界のワークロード下では、エラーが少なくとも7.2%である並列および並列のアダプタの最適な数を予測している。
関連論文リスト
- Data Driven Optimization of GPU efficiency for Distributed LLM Adapter Serving [2.6336040306318274]
LLM(Large Language Model)アダプタは、低コストのモデル特殊化を可能にする。
LLMアダプタは、数百のアダプタを同時にホストしなければならない分散サービスシステムにおいて、複雑なキャッシュとスケジューリングの課題を導入する。
本稿では,最小GPU数でワークロードを処理するアダプタ配置を計算したデータ駆動パイプラインを提案する。
論文 参考訳(メタデータ) (2026-02-27T14:22:51Z) - Serving Heterogeneous LoRA Adapters in Distributed LLM Inference Systems [11.584593298674688]
Low-Rank Adaptation (LoRA)は,大規模言語モデル(LLM)のパラメータ効率向上のためのデファクト手法となった。
プロダクションでは、LoRAベースのモデルが大規模に提供され、数百のアダプタがベースモデルを共有するマルチテナント環境を生成する。
作業負荷を考慮した動的アダプタ配置とルーティングフレームワークであるLoRAServeについて述べる。
論文 参考訳(メタデータ) (2025-11-28T05:04:02Z) - PHLoRA: data-free Post-hoc Low-Rank Adapter extraction from full-rank checkpoint [3.5840378192062956]
我々は、フルランク微調整モデルから低ランク適応アダプタを抽出する簡易かつ強力なPHLoRAを提案する。
アダプタを明示的に訓練する以前の作業とは異なり、我々のアプローチはアダプタ生成から微調整を分離する。
Amazon Novaモデルファミリを用いたテキスト、画像、ビデオのベンチマーク実験では、抽出されたアダプタは、フルウェイトデルタから高エネルギーを保ち、安全に刈り取ることができ、再マージ時に下流タスクのパフォーマンスが無視できる劣化をもたらすことが示されている。
論文 参考訳(メタデータ) (2025-09-13T20:13:58Z) - Improving Robustness of Foundation Models in Domain Adaptation with Soup-Adapters [0.0]
複数の独立したアダプタをトレーニングし、その出力を平均化することにより、新しいモデルの性能が向上し、個々のアダプタと比較して分散シフトに対して堅牢であることを示す。
これはまた、DINOv2向けのCLIPアダプタスタイルのテクニックを探求し、この設定でCLIPと直接比較する最初の研究である。
論文 参考訳(メタデータ) (2025-07-08T09:26:10Z) - EdgeLoRA: An Efficient Multi-Tenant LLM Serving System on Edge Devices [7.596547050649462]
本稿では,マルチテナント環境におけるエッジデバイス上での大規模言語モデル(LLM)の効率的な提供システムであるEdgeLoRAを紹介する。
EdgeLoRAは、(1)アダプタ設定プロセスを合理化するための適応型アダプタ選択機構、(2)インテリジェントなアダプタキャッシュとプーリングを活用してメモリ操作のオーバーヘッドを軽減する不均一なメモリ管理、(3)効率的なバッチ処理を可能にして計算遅延を大幅に削減するバッチLoRA推論という3つの重要なイノベーションを取り入れている。
論文 参考訳(メタデータ) (2025-07-02T07:47:28Z) - Small Aid, Big Leap: Efficient Test-Time Adaptation for Vision-Language Models with AdaptNet [5.977269026037707]
テスト時適応(TTA)は、推論中に視覚言語モデル(VLM)の一般化能力を高める重要な手法として登場した。
本稿では,より軽量で学習しやすいAdaptNetを活用して,効率よくスケーラブルなモデル適応を実現する,新しいアダプタベースのTTAフレームワークであるSAILを紹介する。
論文 参考訳(メタデータ) (2025-06-03T09:16:51Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [60.407727995313074]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - Towards Optimal Adapter Placement for Efficient Transfer Learning [73.1149084352343]
PETLは、トレーニング済みモデルを新しい下流タスクに適用し、微調整されたパラメータの数を最小化することを目的としている。
PETLの一般的なアプローチであるアダプタは、低ランクのプロジェクションを組み込むことで、既存のネットワークにさらなる容量を注入する。
本稿では,アダプタの配置と性能の関係について検討する。
論文 参考訳(メタデータ) (2024-10-21T10:37:17Z) - Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System [75.25394449773052]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は協調的問題解決において顕著な可能性を示している。
通信効率の低下、スケーラビリティの低下、効果的なパラメータ更新方法の欠如などです。
本稿では,コミュニケーション効率とタスク効率を両立させ,これらの課題に対処する新しいフレームワークOptimaを提案する。
論文 参考訳(メタデータ) (2024-10-10T17:00:06Z) - LoRA-Switch: Boosting the Efficiency of Dynamic LLM Adapters via System-Algorithm Co-design [23.874726096958135]
動的アダプタのきめ細かいコストを分析し、断片化されたカーネル呼び出しが根本原因であることを確かめる。
レイヤワイドまたはブロックワイドな動的ルーティングを採用する既存の動的構造とは異なり、LoRA-Switchはトークンワイドなルーティング機構を導入している。
効率を上げるために、このスイッチングは最適化されたカーネルで実装され、同時にすべてのLoRAアダプタの操作を融合させる。
論文 参考訳(メタデータ) (2024-05-28T01:53:26Z) - Towards Modular LLMs by Building and Reusing a Library of LoRAs [64.43376695346538]
マルチタスクデータに対して最適なアダプタライブラリを構築する方法について検討する。
モデルベースクラスタリング(MBC)を導入し,パラメータの類似性に基づいてタスクをグループ化する手法を提案する。
ライブラリを再使用するために,最も関連性の高いアダプタの動的選択を可能にする新しいゼロショットルーティング機構であるArrowを提案する。
論文 参考訳(メタデータ) (2024-05-18T03:02:23Z) - DAM: Dynamic Adapter Merging for Continual Video QA Learning [66.43360542692355]
連続的なビデオ質問応答(VidQA)学習のためのパラメータ効率のよい手法を提案する。
提案手法では,(i)壊滅的忘れを軽減し,(ii)継続的に到着するデータセットへの効率的な適応を可能にし,(iv)類似したデータセットドメイン間の知識共有を可能にする。
我々のDAMモデルは、さまざまなドメインにまたがる6つのVidQAデータセットに対する1.9%の忘れ込みを示しながら、最先端の継続的学習アプローチを9.1%向上させています。
論文 参考訳(メタデータ) (2024-03-13T17:53:47Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of
Large Language Models [75.25782573728677]
本稿では,言語モデル(LLM)のPEFT(Adapter-based parameter- efficient fine-tuning)のためのフレームワークを提案する。
このフレームワークには、LLaMA、BLOOM、GPT-Jといった最先端のオープンアクセスLLMや、シリーズアダプタ、パラレルアダプタ、Promptベースの学習、Reparametrizationベースのメソッドなどの広く使われているアダプタが含まれている。
本研究では,2つの異なる推論タスク,算術的推論と常識推論の14種類のデータセットに対するアダプタの有効性を評価する。
論文 参考訳(メタデータ) (2023-04-04T16:31:37Z) - AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large
Language Models [119.7093605087114]
大規模なトレーニング済み言語モデルをダウンストリームタスクに微調整するには、数億のパラメータを更新する必要がある。
これにより、各タスクのモデルの重みの大量コピーを格納するためのサービスコストが増大するだけでなく、数発のタスク適応中に不安定を示す。
パラメータや計算コストを2つの重要な手法で増大させることなく、アダプタ容量を改善するための新しいメカニズムを導入する。
論文 参考訳(メタデータ) (2022-05-24T23:41:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。