論文の概要: CALM: A Self-Adaptive Orchestration Approach for QoS-Aware Routing in Small Language Model based Systems
- arxiv url: http://arxiv.org/abs/2602.03632v1
- Date: Tue, 03 Feb 2026 15:20:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.536164
- Title: CALM: A Self-Adaptive Orchestration Approach for QoS-Aware Routing in Small Language Model based Systems
- Title(参考訳): CALM:小言語モデルに基づくシステムにおけるQoS対応ルーティングのための自己適応オーケストレーションアプローチ
- Authors: Hemang Jain, Divyansh Pandey, Karthik Vaidhyanathan,
- Abstract要約: CALMはMAPE-Kに基づく自己適応型オーケストレーション機構である。
遅延を約40%削減し、エネルギー消費を50%削減する。
評価の結果,CALMは遅延を約40%減らし,エネルギー消費を50%減らした。
- 参考スコア(独自算出の注目度): 0.6999740786886536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI-enabled systems are subjected to various types of runtime uncertainties, ranging from dynamic workloads, resource requirements, model drift, etc. These uncertainties have a big impact on the overall Quality of Service (QoS). This is particularly true in the case of Language Model (LM) enabled systems where the autoregressive nature of token generation introduces variability in latency, energy usage and response quality. These systems, powered by LLMs, are either resource-intensive (if run on-prem) or raise privacy/cost concerns (if leveraged using APIs). While deploying a Small Language Model (SLM) can be resource-efficient, it often falls short in addressing the diversity and scale of real-world requirements. To this, we argue that, rather than relying on any one SLM, leveraging a coordinated fleet of SLMs, each with specialized strengths can enable systems to dynamically adapt to shifting contexts and workload patterns. However, realizing the full potential of such an approach demands intelligent orchestration and continuous adaptation. To this end, we introduce CALM , a self-adaptive orchestration mechanism based on MAPE-K. Our approach continuously monitors user queries, analyzes the QoS metrics of the SLMs, identifies the optimal SLM to be used, routes the query to the identified SLM and further to enhance the effectiveness and efficiency, leverages caching and scheduling to decide the SLMs to be kept in memory. Our evaluation shows that CALM reduces latency by approximately 40% and energy consumption by 50%, while preserving domain-specific task performance when compared to single-LLM baselines.
- Abstract(参考訳): AI対応システムは、動的ワークロード、リソース要件、モデルドリフトなど、さまざまなタイプのランタイムの不確実性にさらされている。
これらの不確実性は、全体的なQuality of Service(QoS)に大きな影響を与えます。
特に、Language Model(LM)を有効にするシステムでは、トークン生成の自己回帰的な性質がレイテンシ、エネルギー使用量、応答品質の変動をもたらす。
LLMをベースとするこれらのシステムは、リソース集約(オンプレミスで動作する場合)か、プライバシ/コストの懸念(APIを使用する場合)を提起する。
SLM(Small Language Model)のデプロイはリソース効率が良いが、現実の要件の多様性とスケールに対処するには不足することが多い。
そこで本論文では,SLMを1つのSLMに頼らず,一群のSLMを協調的に活用することで,状況変化やワークロードパターンに動的に適応できる,と論じる。
しかし、そのようなアプローチの完全な可能性を実現するには、インテリジェントなオーケストレーションと継続的適応が必要である。
そこで本研究では,MAPE-Kに基づく自己適応型オーケストレーション機構であるCALMを紹介する。
提案手法は,ユーザクエリを継続的に監視し,SLMのQoSメトリクスを分析し,使用すべき最適なSLMを特定し,そのクエリを識別されたSLMにルーティングし,その効率と効率を高めるとともに,キャッシュとスケジューリングを活用してメモリに保持するSLMを決定する。
評価の結果,CALMは単一LLMベースラインと比較して,領域固有のタスク性能を保ちながら,遅延を約40%削減し,エネルギー消費を50%削減できることがわかった。
関連論文リスト
- SLMQuant:Benchmarking Small Language Model Quantization for Practical Deployment [45.23402877397396]
SLMQuantは,Small Language Models (SLM) に適用した場合に圧縮技術を評価するための最初の体系的ベンチマークである。
我々は,SLM上での最先端量子化手法の動作を解析する。
有効なSLM量子化を規定する重要な要因を特定し,SLM調整圧縮のための実用的な設計原理を提案する。
論文 参考訳(メタデータ) (2025-11-17T06:20:33Z) - Graft: Integrating the Domain Knowledge via Efficient Parameter Synergy for MLLMs [56.76586846269894]
MLLM(Multimodal Large Language Models)は、様々な領域で成功している。
その重要性にもかかわらず、ドメイン固有のMLLM間の知識共有の研究はほとんど未調査のままである。
専門家機能のモジュール構成を可能にする統一パラメータ統合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-30T15:07:41Z) - Federated Learning-Enabled Hybrid Language Models for Communication-Efficient Token Transmission [87.68447072141402]
ハイブリッド言語モデル(HLM)は、エッジデバイス上でのSLM(Small Language Model)の低レイテンシ効率と、集中型サーバ上でのLLM(Large Language Model)の高精度を組み合わせたものである。
我々は、不確実性を考慮した推論とフェデレートラーニング(FL)を統合する通信効率の高いHLMフレームワークであるFedHLMを提案する。
論文 参考訳(メタデータ) (2025-06-30T02:56:11Z) - MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision [76.42361936804313]
自動MAS設計のための自己進化型推論時間フレームワークMAS-ZEROを紹介する。
MAS-ZEROはメタレベルの設計を採用し、各問題インスタンスに適したMAS構成を反復的に生成し、評価し、洗練する。
論文 参考訳(メタデータ) (2025-05-21T00:56:09Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。
1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。
我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文 参考訳(メタデータ) (2025-02-06T18:59:11Z) - LSAQ: Layer-Specific Adaptive Quantization for Large Language Model Deployment [12.80921403367322]
大規模言語モデル(LLM)は、様々な領域で例外的なパフォーマンスを示す。
LLMのサイズとメモリ要件を削減した量子化技術は、リソース制限されたエッジデバイスにLLMをデプロイするのに有効である。
適応量子化システムLSAQ(Layer-Specific Adaptive Quantization)を提案する。
論文 参考訳(メタデータ) (2024-12-24T03:43:15Z) - AmoebaLLM: Constructing Any-Shape Large Language Models for Efficient and Instant Deployment [13.977849745488339]
AmoebaLLMは任意の形状の大規模言語モデルの即時導出を可能にする新しいフレームワークである。
AmoebaLLMは、様々なプラットフォームやアプリケーションに適した迅速なデプロイメントを著しく促進する。
論文 参考訳(メタデータ) (2024-11-15T22:02:28Z) - Towards Self-Adaptive Machine Learning-Enabled Systems Through QoS-Aware
Model Switching [1.2277343096128712]
本稿では,機械学習モデルバランサの概念を提案し,複数のモデルを用いてMLモデルに関連する不確実性を管理する。
AdaMLSは、この概念を活用し、従来のMAPE-Kループを拡張した新しい自己適応手法である。
予備的な結果は、AdaMLSが保証において、単純で単一の最先端モデルを上回ることを示唆している。
論文 参考訳(メタデータ) (2023-08-19T09:33:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。