論文の概要: Sustainable LLM Inference using Context-Aware Model Switching
- arxiv url: http://arxiv.org/abs/2602.22261v1
- Date: Wed, 25 Feb 2026 03:42:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.333776
- Title: Sustainable LLM Inference using Context-Aware Model Switching
- Title(参考訳): 文脈認識モデルスイッチングを用いた持続可能なLLM推論
- Authors: Yuvarani, Akashdeep Singh, Zahra Fathanah, Salsabila Harlen, Syeikha Syafura Al-Zahra binti Zahari, Hema Subramaniam,
- Abstract要約: 現在のAIデプロイメントにおける重要な制限は、ワンサイズフィットの推論戦略に依存していることだ。
本稿では,クエリの複雑さに基づいて適切な言語モデルを動的に選択するコンテキスト対応モデル切替手法を提案する。
実験結果から, モデルスイッチング方式は最大67.5%のエネルギー消費を抑えることができることがわかった。
- 参考スコア(独自算出の注目度): 0.9455980760111498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have become central to many AI applications, but their growing energy consumption raises serious sustainability concerns. A key limitation in current AI deployments is the reliance on a one-size-fits-all inference strategy where most systems route every request to the same large model, regardless of task complexity, leading to substantial and unnecessary energy waste. To address this issue, we propose a context-aware model switching approach that dynamically selects an appropriate language model based on query complexity. The proposed system uses a Context-Aware Model Switching for Energy-Efficient LLM Inference that combines caching for repeated queries, rulebased complexity scoring for fast and explainable decisions, machine learning classification to capture semantic intent, and a user-adaptive component that learns from interaction patterns over time. The proposed architecture was evaluated using real conversation workloads and three open-source language models (Gemma3 1B, Gemma3 4B and Qwen3 4B) with different computational costs, measuring energy consumption (via NVML GPU power telemetry), response latency, routing accuracy, and output quality (BERTScore F1) to reflect real-world usage conditions. Experimental results show that the model switching approach can reduce energy consumption by up to 67.5% compared to always using the largest model while maintaining a response quality of 93.6%. In addition, the response time for simple queries also improved significantly by approximately 68%. These results show that model switching inference offers a practical and scalable path toward more energy-efficient and sustainable AI systems, demonstrating that significant efficiency gains can be achieved without major sacrifices in response quality.
- Abstract(参考訳): 大規模言語モデルは、多くのAIアプリケーションの中心となっているが、そのエネルギー消費の増加は、深刻な持続可能性の懸念を引き起こす。
現在のAIデプロイメントにおける重要な制限は、タスクの複雑さに関わらず、ほとんどのシステムがすべての要求を同じ大きなモデルにルーティングし、実質的で不要なエネルギー浪費をもたらす、ワンサイズの推論戦略に依存していることだ。
この問題に対処するために,クエリの複雑さに基づいて適切な言語モデルを動的に選択するコンテキスト対応モデル切替手法を提案する。
提案システムでは,繰り返しクエリに対するキャッシングと,高速かつ説明可能な判断のためのルールベースの複雑性スコア,意味的意図をキャプチャするマシンラーニング分類,インタラクションパターンから時間とともに学習するユーザ適応コンポーネントを組み合わせた,エネルギー効率の高いLLM推論のためのコンテキスト認識モデルスイッチングを採用している。
提案アーキテクチャは,実際の会話処理と,計算コストの異なる3つのオープンソース言語モデル(Gemma3 1B,Gemma3 4B,Qwen3 4B)を用いて評価した。
実験結果から, モデルスイッチング方式は最大で最大で最大で最大で最大で67.5%のエネルギー消費を削減でき, 応答品質は93.6%であることがわかった。
さらに、単純なクエリのレスポンス時間も約68%改善した。
これらの結果は、モデルスイッチング推論が、よりエネルギー効率が高く持続可能なAIシステムへの実用的でスケーラブルな経路を提供することを示している。
関連論文リスト
- Understanding Efficiency: Quantization, Batching, and Serving Strategies in LLM Energy Use [4.513690948889834]
大規模言語モデル(LLM)はますます本番環境に配備され、計算資源やエネルギー需要の負担をトレーニングから推論へとシフトさせるのに寄与している。
我々は,同じモデルにおけるエネルギー消費のオーダー・オブ・マグニチュードの違いを,Emphsystemレベルの設計選択がいかに引き起こすかを示す。
我々の発見は、よりグリーンなAIサービスのための位相認識エネルギープロファイリングとシステムレベルの最適化を動機付けている。
論文 参考訳(メタデータ) (2026-01-29T22:16:25Z) - RE-LLM: Integrating Large Language Models into Renewable Energy Systems [0.7466390172678973]
本稿では,Large Language Models(LLM)を直接エネルギーシステムモデリングワークフローに統合するハイブリッドフレームワークであるRenewable Energy Large Language Model (RE-LLM)を提案する。
RE-LLMは、最適化に基づくシナリオ探索(i)、計算集約的なシミュレーションを加速する機械学習サロゲート(ii)、複雑な結果を明確でステークホルダー指向の説明に変換するLLMベースの自然言語生成(iii)の3つの中核要素を組み合わせる。
将来的なエネルギー経路との対話的、多言語的、アクセス可能なエンゲージメントを可能にし、最終的にはデータ駆動分析と持続可能な移行のための実行可能な意思決定の最終的なギャップを埋める。
論文 参考訳(メタデータ) (2025-12-01T08:10:39Z) - Comparing energy consumption and accuracy in text classification inference [0.9208007322096533]
本研究は,テキスト分類推定におけるモデル精度とエネルギー消費のトレードオフを系統的に評価する。
精度の点で最高の性能モデルはエネルギー効率も良いが、より大きなLCMはより低い分類精度ではるかに多くのエネルギーを消費する傾向がある。
論文 参考訳(メタデータ) (2025-08-19T18:00:08Z) - Lightweight Task-Oriented Semantic Communication Empowered by Large-Scale AI Models [66.57755931421285]
大規模人工知能(LAI)モデルは、リアルタイム通信シナリオにおいて重大な課題を提起する。
本稿では,LAIモデルから知識を抽出・凝縮するために知識蒸留(KD)技術を活用することを提案する。
本稿では,反復推論の必要性を排除したプレストア圧縮機構を備えた高速蒸留法を提案する。
論文 参考訳(メタデータ) (2025-06-16T08:42:16Z) - Self-Route: Automatic Mode Switching via Capability Estimation for Efficient Reasoning [36.470695895695044]
Self-Routeは、一般的な推論モードと推論モードを自動的に選択する動的推論フレームワークである。
トークン消費量を30~55%削減しながら,自己ルートが推論モデルに匹敵する精度を実現していることを示す。
論文 参考訳(メタデータ) (2025-05-27T03:18:31Z) - Learning to Rank Chain-of-Thought: Using a Small Model [77.75522308463667]
本稿では、この課題に対処するために設計された高効率で軽量な検証器であるEORM(Energy Outcome Reward Model)を紹介する。
EORMはエネルギーベースのフレームワークを使用してChain-of-Thought(CoT)ソリューションをランク付けし、単純な結果ラベルだけで誤った推論と正しく区別することを学ぶ。
55Mのパラメータだけで、通常の報酬モデルより127倍以上小さいEORMは、Llama 3 8Bの精度をGSM8kで90.7%、MATHで63.7%に向上させた。
論文 参考訳(メタデータ) (2025-05-21T01:06:29Z) - Task-Oriented Semantic Communication in Large Multimodal Models-based Vehicle Networks [55.32199894495722]
LMMに基づく車両用AIアシスタントLarge Language and Vision Assistant(LLaVA)について検討する。
計算要求を減らし、応答時間を短縮するため、LLaVAの画像スライシングを最適化し、ユーザにとって最も関心のある領域に選択的にフォーカスする。
交通シナリオに対する視覚質問応答(VQA)データセットを構築し,有効性を評価する。
論文 参考訳(メタデータ) (2025-05-05T07:18:47Z) - Energy-Aware LLMs: A step towards sustainable AI for downstream applications [0.9012198585960441]
LLM(Advanced Large Language Models)は、コミュニケーションネットワークを含む様々な分野に革命をもたらした。
LLMは通常、膨大な計算資源を必要とするため、非常に高いエネルギー消費をもたらす。
本研究では,エネルギー効率とモデル性能のトレードオフを調査するエンドツーエンドパイプラインを提案する。
論文 参考訳(メタデータ) (2025-03-22T14:28:29Z) - EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models [64.18350535770357]
マルチモーダル推論の効率を高めるために,大規模視覚言語モデルの自動プルーニング手法を提案する。
提案手法では,所望のプルーニングポリシーを探索するために,少数のサンプルのみを活用する。
視覚的質問応答のためのScienceQA, Vizwiz, MM-vet, LLaVA-Benchデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2025-03-19T16:07:04Z) - Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。
提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文 参考訳(メタデータ) (2024-05-07T17:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。