論文の概要: Rearchitecting Datacenter Lifecycle for AI: A TCO-Driven Framework
- arxiv url: http://arxiv.org/abs/2509.26534v1
- Date: Tue, 30 Sep 2025 17:08:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.222454
- Title: Rearchitecting Datacenter Lifecycle for AI: A TCO-Driven Framework
- Title(参考訳): AIのためのデータセンタライフサイクルの再設計 - TCO駆動フレームワーク
- Authors: Jovan Stojkovic, Chaojie Zhang, Íñigo Goiri, Ricardo Bianchini,
- Abstract要約: 電力、冷却、ネットワークのプロビジョニングにおける設計選択が、長期TCOにどのように影響するかを示す。
また、ハードウェアのトレンドに沿ったリフレッシュ戦略についても検討しています。
我々のシステムは従来のアプローチよりも最大40%TCOを削減します。
- 参考スコア(独自算出の注目度): 5.927989356089395
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The rapid rise of large language models (LLMs) has been driving an enormous demand for AI inference infrastructure, mainly powered by high-end GPUs. While these accelerators offer immense computational power, they incur high capital and operational costs due to frequent upgrades, dense power consumption, and cooling demands, making total cost of ownership (TCO) for AI datacenters a critical concern for cloud providers. Unfortunately, traditional datacenter lifecycle management (designed for general-purpose workloads) struggles to keep pace with AI's fast-evolving models, rising resource needs, and diverse hardware profiles. In this paper, we rethink the AI datacenter lifecycle scheme across three stages: building, hardware refresh, and operation. We show how design choices in power, cooling, and networking provisioning impact long-term TCO. We also explore refresh strategies aligned with hardware trends. Finally, we use operation software optimizations to reduce cost. While these optimizations at each stage yield benefits, unlocking the full potential requires rethinking the entire lifecycle. Thus, we present a holistic lifecycle management framework that coordinates and co-optimizes decisions across all three stages, accounting for workload dynamics, hardware evolution, and system aging. Our system reduces the TCO by up to 40\% over traditional approaches. Using our framework we provide guidelines on how to manage AI datacenter lifecycle for the future.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な増加は、主にハイエンドGPUを使用したAI推論インフラストラクチャの膨大な需要を押し上げている。
これらのアクセラレーターは膨大な計算能力を提供するが、頻繁なアップグレード、高密度電力消費、冷却要求により、高い資本と運用コストを発生させ、AIデータセンターの総所有コスト(TCO)をクラウドプロバイダにとって重要な懸念事項にしている。
残念ながら、従来のデータセンタライフサイクル管理(汎用ワークロード用に設計された)は、AIの急速な進化するモデル、リソースニーズの増大、さまざまなハードウェアプロファイルとペースを維持するのに苦労している。
本稿では、構築、ハードウェアリフレッシュ、運用の3段階にわたるAIデータセンタライフサイクルスキームを再考する。
電力、冷却、ネットワークのプロビジョニングにおける設計選択が、長期TCOにどのように影響するかを示す。
また、ハードウェアのトレンドに沿ったリフレッシュ戦略についても検討しています。
最後に、コスト削減のためにオペレーションソフトウェア最適化を使用します。
これらの最適化はそれぞれの段階でメリットをもたらすが、完全なポテンシャルを解放するにはライフサイクル全体を再考する必要がある。
そこで本研究では,ワークロードのダイナミクス,ハードウェアの進化,システム老化など,3段階すべてで意思決定をコーディネートし,共同最適化するライフサイクル管理フレームワークを提案する。
当社のシステムでは,従来のアプローチよりもTCOを最大40%削減しています。
フレームワークを使用することで、将来的なAIデータセンタライフサイクルの管理方法に関するガイドラインを提供します。
関連論文リスト
- AI Data Centers Need Pioneers to Deliver Scalable Power via Offgrid AI [0.0]
私たちの時代は、スケーラブルなコンピューティング革命の鍵となる方法で、スケーラブルなエネルギーの新しい革命を必要としています。
オフグリッドAIアプローチは、主に再生可能エネルギーの生成とストレージを組み合わせて、オフグリッドからAIデータセンタに電力を供給する。
オフグリッドAIアプローチは、コンセプトから大規模デプロイメントへ素早く移行するために、システム開発者とAIデータセンタオペレータの両方のパイオニアが必要です。
論文 参考訳(メタデータ) (2025-08-25T17:13:30Z) - Intelligent Mobile AI-Generated Content Services via Interactive Prompt Engineering and Dynamic Service Provisioning [55.641299901038316]
AI生成コンテンツは、ネットワークエッジで協調的なMobile AIGC Service Providers(MASP)を編成して、リソース制約のあるユーザにユビキタスでカスタマイズされたコンテンツを提供することができる。
このようなパラダイムは2つの大きな課題に直面している: 1) 生のプロンプトは、ユーザーが特定のAIGCモデルで経験していないために、しばしば生成品質が低下する。
本研究では,Large Language Model (LLM) を利用してカスタマイズしたプロンプトコーパスを生成する対話型プロンプトエンジニアリング機構を開発し,政策模倣に逆強化学習(IRL)を用いる。
論文 参考訳(メタデータ) (2025-02-17T03:05:20Z) - Beyond Efficiency: Scaling AI Sustainably [4.711003829305544]
現代のAIアプリケーションは、コンピューティングにおける需要を継続的に増加させてきた。
本稿では, ハードウェア製造における炭素排出量の具体化だけでなく, トレーニングおよび推論からのCO排出の操作を含む, AIの炭素影響を特徴付ける。
論文 参考訳(メタデータ) (2024-06-08T00:07:16Z) - Game-Theoretic Deep Reinforcement Learning to Minimize Carbon Emissions and Energy Costs for AI Inference Workloads in Geo-Distributed Data Centers [3.3379026542599934]
この研究は、地理分散データセンターにおけるAI推論ワークロードの分散を最適化するために、ゲーム理論(GT)と深層強化学習(DRL)を組み合わせたユニークなアプローチを導入する。
提案手法は,非協調型ゲーム理論の原理をDRLフレームワークに統合し,データセンターが作業負荷配分に関するインテリジェントな決定を行えるようにする。
論文 参考訳(メタデータ) (2024-04-01T20:13:28Z) - Green Edge AI: A Contemporary Survey [46.11332733210337]
AIの変換力は、ディープニューラルネットワーク(DNN)の利用から導かれる。
ディープラーニング(DL)は、エンドユーザーデバイス(EUD)に近い無線エッジネットワークに移行しつつある。
その可能性にもかかわらず、エッジAIは大きな課題に直面している。主な原因は、無線エッジネットワークのリソース制限と、DLのリソース集約的な性質の分離である。
論文 参考訳(メタデータ) (2023-12-01T04:04:37Z) - Power Hungry Processing: Watts Driving the Cost of AI Deployment? [74.19749699665216]
生成された多目的AIシステムは、機械学習(ML)モデルをテクノロジに構築するための統一的なアプローチを約束する。
この「一般性」の野心は、これらのシステムが必要とするエネルギー量と放出する炭素量を考えると、環境に急激なコストがかかる。
これらのモデルを用いて,代表的なベンチマークデータセット上で1,000の推論を行うのに必要なエネルギーと炭素の量として,デプロイメントコストを測定した。
本稿は、多目的MLシステムの展開動向に関する議論から締めくくり、エネルギーと排出の面でコストの増大に対して、その実用性はより意図的に重み付けされるべきである、と警告する。
論文 参考訳(メタデータ) (2023-11-28T15:09:36Z) - Sustainable AIGC Workload Scheduling of Geo-Distributed Data Centers: A
Multi-Agent Reinforcement Learning Approach [48.18355658448509]
生成的人工知能の最近の進歩は、機械学習トレーニングの需要が急増し、エネルギー消費の大幅な増加によるコスト負担と環境問題を引き起こしている。
地理的に分散したクラウドデータセンタ間でのトレーニングジョブのスケジューリングは、安価で低炭素エネルギーのコンピューティング能力の使用を最適化する機会を浮き彫りにする。
本研究では,実生活におけるワークロードパターン,エネルギー価格,炭素強度を組み込んだクラウドシステムと対話することで,マルチエージェント強化学習とアクタクリティカルな手法に基づく最適協調スケジューリング戦略の学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-17T02:12:30Z) - The Future of Consumer Edge-AI Computing [58.445652425379855]
Deep Learningは、主にデバイス間のハードウェアアクセラレーションによって、消費者のエンドに急速に浸透している。
将来を見据えて、孤立したハードウェアが不十分であることは明らかです。
本稿では,コンシューマエッジにおける計算資源とデータアクセスの再編成と最適化を目的とした,EdgeAI-Hubデバイスを中心とした新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-10-19T12:41:47Z) - HUNTER: AI based Holistic Resource Management for Sustainable Cloud
Computing [26.48962351761643]
我々は,HUNTERと呼ばれる持続可能なクラウドコンピューティングのための人工知能(AI)に基づく総合的資源管理手法を提案する。
提案モデルでは,多目的スケジューリング問題として,データセンターのエネルギー効率を最適化する目標を定式化している。
シミュレーションおよび物理雲環境の実験により、HUNTERはエネルギー消費、SLA違反、スケジューリング時間、コスト、温度を最大12、35、43、54、3%で上回った。
論文 参考訳(メタデータ) (2021-10-11T18:11:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。