論文の概要: GreenServ: Energy-Efficient Context-Aware Dynamic Routing for Multi-Model LLM Inference
- arxiv url: http://arxiv.org/abs/2601.17551v1
- Date: Sat, 24 Jan 2026 18:42:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.918839
- Title: GreenServ: Energy-Efficient Context-Aware Dynamic Routing for Multi-Model LLM Inference
- Title(参考訳): GreenServ:マルチモデルLCM推論のためのエネルギー効率の良いコンテキスト認識動的ルーティング
- Authors: Thomas Ziller, Shashikant Ilager, Alessandro Tundo, Ezio Bartocci, Leonardo Mariani, Ivona Brandic,
- Abstract要約: 大規模言語モデル(LLM)は目覚ましい能力を示すが、その広範な展開は計算資源の要求によって制限される。
静的で1つのモデルに適した推論戦略は、様々な利用可能なモデルを活用したり、様々なクエリ要求に適応しないため、しばしば非効率である。
本稿では,推論精度とエネルギー効率のトレードオフを最適化する動的コンテキスト対応ルーティングフレームワークであるGreenServを提案する。
- 参考スコア(独自算出の注目度): 38.194220685032434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) demonstrate remarkable capabilities, but their broad deployment is limited by significant computational resource demands, particularly energy consumption during inference. Static, one-model-fits-all inference strategies are often inefficient, as they do not exploit the diverse range of available models or adapt to varying query requirements. This paper presents GreenServ, a dynamic, context-aware routing framework that optimizes the trade-off between inference accuracy and energy efficiency. GreenServ extracts lightweight contextual features from each query, including task type, semantic cluster, and text complexity, and routes queries to the most suitable model from a heterogeneous pool, based on observed accuracy and energy usage. We employ a multi-armed bandit approach to learn adaptive routing policies online. This approach operates under partial feedback, eliminates the need for extensive offline calibration, and streamlines the integration of new models into the inference pipeline. We evaluated GreenServ across five benchmark tasks and a pool of 16 contemporary open-access LLMs. Experimental results show that GreenServ consistently outperforms static (single-model) and random baselines. In particular, compared to random routing, GreenServ achieved a 22% increase in accuracy while reducing cumulative energy consumption by 31%. Finally, we evaluated GreenServ with RouterBench, achieving an average accuracy of 71.7% with a peak accuracy of 75.7%. All artifacts are open-source and available as an anonymous repository for review purposes here: https://anonymous.4open.science/r/llm-inference-router-EBEA/README.md
- Abstract(参考訳): 大規模言語モデル(LLM)は目覚ましい能力を示すが、その広範な展開は重要な計算資源、特に推論時のエネルギー消費によって制限される。
静的で1つのモデルに適した推論戦略は、様々な利用可能なモデルを活用したり、様々なクエリ要求に適応しないため、しばしば非効率である。
本稿では,推論精度とエネルギー効率のトレードオフを最適化する動的コンテキスト対応ルーティングフレームワークであるGreenServを提案する。
GreenServはタスクタイプ、セマンティッククラスタ、テキストの複雑さなど、各クエリから軽量なコンテキスト特徴を抽出し、観測された精度とエネルギー使用量に基づいて、不均一プールから最も適切なモデルにクエリをルーティングする。
我々は、適応的なルーティングポリシーをオンラインで学習するために、マルチアームのバンディットアプローチを採用する。
このアプローチは部分的なフィードバックの下で動作し、広範なオフラインキャリブレーションの必要性を排除し、新しいモデルの推論パイプラインへの統合を合理化する。
5つのベンチマークタスクと16の現代的なオープンアクセスLDMのプールでGreenServを評価した。
実験の結果、GreenServは静的(単一モデル)とランダムベースラインを一貫して上回ることがわかった。
特にランダムなルーティングと比較して、GreenServは22%の精度向上を実現し、累積エネルギー消費量を31%削減した。
最後に、LuterBenchを用いてGreenServを評価し、平均精度71.7%、ピーク精度75.7%を実現した。
すべてのアーティファクトはオープンソースで、レビュー目的で匿名リポジトリとして利用可能である。 https://anonymous.4open.science/r/llm-inference-router-EBEA/README.md
関連論文リスト
- TinyLLM: Evaluation and Optimization of Small Language Models for Agentic Tasks on Edge Devices [0.0]
本稿では,エージェントタスク(機能/ツール/API呼び出し)における小言語モデル(SLM)の有効性について検討する。
本稿では、教師付き微調整(SFT)、パラメータ効率の高い微調整(PEFT)、強化学習(RL)、ハイブリッド手法を含むパラメータ駆動最適化戦略について述べる。
その結果,中規模モデル(1-3Bパラメータ)がウルトラコンパクトモデル(1Bパラメータ)を大幅に上回るモデルスケール間での精度差が明らかとなった。
この研究は、エッジデバイス上で、小さな言語モデルが正確で効率的で安定したエージェントAIを提供できるようにするためのハイブリッド最適化戦略の重要性を強調した。
論文 参考訳(メタデータ) (2025-11-27T06:09:54Z) - EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T02:27:08Z) - PointLoRA: Low-Rank Adaptation with Token Selection for Point Cloud Learning [54.99373314906667]
ポイントクラウドのための自己教師付き表現学習は、様々なタスクで事前訓練されたモデルパフォーマンスを改善する効果を実証した。
事前訓練されたモデルは複雑さが増すにつれて、下流のアプリケーションに完全に微調整を施すには、かなりの計算資源とストレージ資源が必要である。
そこで我々は,低ランク適応(LoRA)とマルチスケールトークン選択を併用した簡易かつ効果的なPointLoRAを提案する。
論文 参考訳(メタデータ) (2025-04-22T16:41:21Z) - EffOWT: Transfer Visual Language Models to Open-World Tracking Efficiently and Effectively [60.48750788231384]
Open-World Tracking (OWT) は,任意のカテゴリのすべてのオブジェクトを追跡することを目的としている。
EffOWTは未知のカテゴリの追跡基準OWTAで5.5%の絶対的なゲインを達成するが、完全な微調整に比べてパラメータの1.3%しか更新しない。
論文 参考訳(メタデータ) (2025-04-07T14:47:58Z) - CMoE: Converting Mixture-of-Experts from Dense to Accelerate LLM Inference [33.871080938643566]
CMoEは、高密度言語モデルをトレーニングなしで、ミックス・オブ・エキスパート(MoE)に迅速に変換するフレームワークである。
実験により、75%の活性化比で、パープレキシティの点で顕著な結果が得られることが示された。
パラメータの25%をアクティベートするCMoE構成は、追加のトレーニングなしで使用可能なパープレキシティを保ちながら、エンドツーエンドのレイテンシを1.5倍削減する。
論文 参考訳(メタデータ) (2025-02-06T14:05:30Z) - Ada-K Routing: Boosting the Efficiency of MoE-based LLMs [6.954735360168147]
トークンごとにアクティベートされた専門家の数を動的に調整する新しいAda-Kルーティング戦略を提案する。
我々の戦略は学習可能で軽量なアロケータモジュールを組み込んでおり、各トークンのコンテキストに応じたカスタマイズされた専門家リソース割り当てを決定する。
論文 参考訳(メタデータ) (2024-10-14T12:50:04Z) - A Green Multi-Attribute Client Selection for Over-The-Air Federated Learning: A Grey-Wolf-Optimizer Approach [5.277822313069301]
OTA(Over-the-air)FLは、デバイス間直接接続や集中型サーバを使わずにモデルアップデートを広めることによって、これらの課題に対処するために導入された。
OTA-FLは、エネルギー消費の増大とネットワーク遅延の制限を引き起こした。
本稿では,グレイオオカミ(GWO)を用いた多属性クライアント選択フレームワークを提案し,各ラウンドの参加者数を戦略的に制御する。
論文 参考訳(メタデータ) (2024-09-16T20:03:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。