論文の概要: MARLIN: Multi-Agent Game-Theoretic Reinforcement Learning for Sustainable LLM Inference in Cloud Datacenters
- arxiv url: http://arxiv.org/abs/2605.13496v1
- Date: Wed, 13 May 2026 13:20:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.067575
- Title: MARLIN: Multi-Agent Game-Theoretic Reinforcement Learning for Sustainable LLM Inference in Cloud Datacenters
- Title(参考訳): MARLIN: クラウドデータセンターにおける持続可能なLLM推論のためのマルチエージェントゲーム理論強化学習
- Authors: H. Moore, S. Qi, D. Milojicic, C. Bash, S. Pasricha,
- Abstract要約: 大規模言語モデル(LLM)は、AIベースのコンシューマおよびエンタープライズサービスの導入によって、クラウドベースのプラットフォームでますます普及している。
LLMの推論要求は、ライフサイクル全体のエネルギー使用量の最大90%を占め、訓練エネルギーコストは下降する。
タイム・ツー・ファーストトークン(TTFT)を共用するマルチエージェントゲーム理論強化学習フレームワーク MARLIN を提案する。
MarLINはTTFTの少なくとも18%、二酸化炭素の33%、水利用の43%、エネルギーコストの11%を削減している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) have become increasingly prevalent in cloud-based platforms, propelled by the introduction of AI-based consumer and enterprise services. LLM inference requests in particular account for up to 90% of total LLM lifecycle energy use, dwarfing training energy costs. The rising volume of LLM inference requests is increasing environmental footprints, particularly carbon emissions and water consumption. To improve sustainability for LLM inference serving in cloud datacenter environments, we propose a novel multi-agent game-theoretic reinforcement learning framework called MARLIN to co-optimize time-to-first token (TTFT), carbon emissions, water usage, and energy costs associated with LLM inference. MARLIN demonstrates a reduction of at least 18% in TTFT, 33% in carbon emissions, 43% in water usage, and 11% in energy costs compared to state-of-the-art LLM inference management frameworks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、AIベースのコンシューマおよびエンタープライズサービスの導入によって、クラウドベースのプラットフォームでますます普及している。
特に LLM の推理要求は LLM のライフサイクルエネルギー使用量の最大90%を占めており、訓練エネルギーのコストは下降している。
LLM推論要求の増大は環境フットプリント、特に二酸化炭素排出量と水消費を増加させている。
クラウドデータセンタ環境におけるLLM推論のサステナビリティ向上を目的として,NTT,炭素排出量,水利用量,LLM推論に関連するエネルギーコストを最適化するMARLINという,マルチエージェントゲーム理論強化学習フレームワークを提案する。
MARLINは、TTFTの少なくとも18%、炭素排出量の33%、水利用の43%、エネルギーコストの11%を、最先端のLLM推論管理フレームワークと比較して削減している。
関連論文リスト
- Energy-Efficient Wireless LLM Inference via Uncertainty and Importance-Aware Speculative Decoding [2.801974469453156]
エネルギー効率の高い重要度と不確実性を考慮したHLM推論のためのトークンレベルのフィルタリング機構を提案する。
提案手法は,情報トークンのみをアップロードし,LCM使用率と通信コストを低減させる。
論文 参考訳(メタデータ) (2025-08-18T02:56:59Z) - Sustainable Carbon-Aware and Water-Efficient LLM Scheduling in Geo-Distributed Cloud Datacenters [2.391483506190989]
ChatGPT、CoPilot、Geminiといった大規模言語モデル(LLM)は、様々な分野で広く採用されている。
近年の研究では, LLMの運用コストが, 年間25倍を超えることが推定されている。
我々はSLITと呼ばれる新しいフレームワークを提案し、LCMのサービス品質(時間から第一のトークン)、二酸化炭素排出量、水使用量、エネルギーコストを最適化する。
論文 参考訳(メタデータ) (2025-05-29T15:31:28Z) - Large Language Model-enhanced Reinforcement Learning for Low-Altitude Economy Networking [71.83640290222928]
Low-Altitude Economic Networking (LAENet)は、1000m以下の多様な飛行アプリケーションをサポートすることを目的としている。
複雑な意思決定、資源の制約、環境の不確実性は、LEENetの開発に重大な課題をもたらす。
論文 参考訳(メタデータ) (2025-05-27T11:25:42Z) - How Hungry is AI? Benchmarking Energy, Water, and Carbon Footprint of LLM Inference [0.0]
本稿では,商用データセンタにデプロイされる30の最先端モデルを対象とした,AI推論の環境フットプリントを定量化する,新たなインフラストラクチャ対応ベンチマークフレームワークを提案する。
以上の結果から,O3とDeepSeek-R1が最もエネルギー集約的なモデルとして出現し,GPT-4.1ナノの70倍以上のGPT-4.1ナノを消費し,Claude-3.7 Sonnetはエコ効率で最高であることがわかった。
AIは安価で速くなっているが、そのグローバルな採用はリソース消費を不均等にしている。
論文 参考訳(メタデータ) (2025-05-14T17:47:00Z) - Densing Law of LLMs [81.06644243978101]
大規模言語モデル(LLM)は人工知能のマイルストーンとして登場し、モデルのサイズが大きくなるにつれてその性能が向上する。
本稿では,異なるスケールでLLMの品質を評価するための新しい指標として,「テクトキャパシティ密度」の概念を紹介する。
論文 参考訳(メタデータ) (2024-12-05T16:31:13Z) - TinyML NLP Scheme for Semantic Wireless Sentiment Classification with Privacy Preservation [49.801175302937246]
本研究は、エッジデバイスにプライバシ保護、エネルギー効率の高いNLPモデルをデプロイする際の洞察を提供する。
セマンティックスプリットラーニング(SL)を,エネルギー効率,プライバシ保護,小型機械学習(TinyML)フレームワークとして導入する。
その結果,FLの4倍,CLの約18倍の再現誤差の増加により,SLは計算能力とCO2排出量を著しく低減し,プライバシーの向上を図った。
論文 参考訳(メタデータ) (2024-11-09T21:26:59Z) - CE-CoLLM: Efficient and Adaptive Large Language Models Through Cloud-Edge Collaboration [1.6021932740447968]
大型言語モデル(LLM)は、人間のような優れた予測能力を示す。
LLMをデプロイして、エッジで効率的かつ適応的な推論サービスを提供するのは難しい。
本稿では,これらの課題に対処するために,LLM(CE-CoLLM)のための新しいクラウドエッジコラボレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-05T06:00:27Z) - Q-Sparse: All Large Language Models can be Fully Sparsely-Activated [93.45300714803429]
Q-Sparseは、スパースアクティベートされた大規模言語モデル(LLM)を訓練するための、シンプルで効果的なアプローチである。
Q-Sparse は LLM における活性化の完全な分散を可能にし、推論においてかなりの効率向上をもたらす。
バッチトレーニングと推論のためのBlock Q-Sparseも導入しています。
論文 参考訳(メタデータ) (2024-07-15T17:59:29Z) - Towards Greener LLMs: Bringing Energy-Efficiency to the Forefront of LLM Inference [6.68507515624183]
大規模な言語モデルを提供するためのデータセンター拡張の最大の課題として、エネルギーの可用性が最前線に現れている。
入力,モデル,サービスレベルの合意によっては,LLM推論プロバイダがエネルギー効率を高めるために利用できるノブがいくつか存在することを示す。
論文 参考訳(メタデータ) (2024-03-29T17:22:48Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。