論文の概要: DCoPilot: Generative AI-Empowered Policy Adaptation for Dynamic Data Center Operations
- arxiv url: http://arxiv.org/abs/2602.02137v2
- Date: Tue, 03 Feb 2026 08:43:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 13:28:03.736626
- Title: DCoPilot: Generative AI-Empowered Policy Adaptation for Dynamic Data Center Operations
- Title(参考訳): DCoPilot: 動的データセンタ運用のためのAIを活用した生成ポリシー適応
- Authors: Minghao Li, Ruihang Wang, Rui Tan, Yonggang Wen,
- Abstract要約: DCoPilotは動的DC動作における生成制御ポリシのためのハイブリッドフレームワークである。
i) ストレステストを行うシミュレーションスケールアップ、(ii) メタポリシー蒸留、(ii) ハイパーネットワークがSLAとシーン埋め込みを条件としたポリシー重みを出力するように訓練され、(iii) オンライン適応により、更新された仕様に応じてゼロショットポリシー生成を可能にする。
- 参考スコア(独自算出の注目度): 9.210347753567092
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern data centers (DCs) hosting artificial intelligence (AI)-dedicated devices operate at high power densities with rapidly varying workloads, making minute-level adaptation essential for safe and energy-efficient operation. However, manually designing piecewise deep reinforcement learning (DRL) agents cannot keep pace with frequent dynamics shifts and service-level agreement (SLA) changes of an evolving DC. This specification-to-policy lag causes a lack of timely, effective control policies, which may lead to service outages. To bridge the gap, we present DCoPilot, a hybrid framework for generative control policies in dynamic DC operation. DCoPilot synergizes two distinct generative paradigms, i.e., a large language model (LLM) that performs symbolic generation of structured reward forms, and a hypernetwork that conducts parametric generation of policy weights. DCoPilot operates through three coordinated phases: (i) simulation scale-up, which stress-tests reward candidates across diverse simulation-ready (SimReady) scenes; (ii) meta policy distillation, where a hypernetwork is trained to output policy weights conditioned on SLA and scene embeddings; and (iii) online adaptation, enabling zero-shot policy generation in response to updated specifications. Evaluated across five control task families spanning diverse DC components, DCoPilot achieves near-zero constraint violations and outperforms all baselines across specification variations. Ablation studies validate the effectiveness of LLM-based unified reward generation in enabling stable hypernetwork convergence.
- Abstract(参考訳): 人工知能(AI)専用デバイスをホストする現代のデータセンター(DC)は、急速に異なるワークロードで高出力密度で動作するため、安全でエネルギー効率の良い運用に必要不可欠なミニレベル適応を実現している。
しかし、手作業でDRLエージェントを設計することは、進化するDCの頻繁なダイナミクスシフトやSLA(Service-level agreement)の変化に追随することはできない。
この仕様からポリシーへの遅延は、タイムリーで効果的なコントロールポリシーの欠如を引き起こし、サービス停止につながる可能性がある。
このギャップを埋めるために,動的直流動作における生成制御ポリシのハイブリッドフレームワークであるDCoPilotを提案する。
DCoPilotは2つの異なる生成パラダイム、すなわち、構造化された報酬形式を象徴的に生成する大きな言語モデル(LLM)と、ポリシーウェイトをパラメトリックに生成するハイパーネットワークを相乗化している。
DCoPilotは3つの調整されたフェーズで動作します。
一 多様なシミュレーション・レディ(SimReady)の場面において、ストレステストにより報酬候補を報奨するシミュレーション・スケールアップ
二 メタポリシー蒸留であって、SLA及びシーン埋め込みを条件とした政策重量を出力するためにハイパーネットワークを訓練すること。
(iii) 改訂された仕様に応じてゼロショットポリシー生成を可能にするオンライン適応。
さまざまなDCコンポーネントにまたがる5つのコントロールタスクファミリで評価され、DCoPilotは、ほぼゼロに近い制約違反を達成し、仕様のバリエーションですべてのベースラインを上回る。
アブレーション研究は、安定なハイパーネットワーク収束を可能にするLLMベースの統一報酬生成の有効性を検証する。
関連論文リスト
- Multi-Phase Spacecraft Trajectory Optimization via Transformer-Based Reinforcement Learning [2.034091340570242]
本研究では,単一ポリシアーキテクチャを通じて多相軌道最適化を統一するトランスフォーマーベースのRLフレームワークを提案する。
その結果, トランスフォーマーをベースとしたフレームワークは, 単純な場合だけでなく, 動的に異なる状況下で協調的な制御ポリシーを効果的に学習することを示した。
論文 参考訳(メタデータ) (2025-11-14T15:29:46Z) - Plasma Shape Control via Zero-shot Generative Reinforcement Learning [17.3934551430283]
PID制御放電の大規模オフラインデータセットから多目的ゼロショット制御ポリシーを開発するための新しいフレームワークを開発する。
結果として得られる基本方針は、タスク固有の微調整なしで、ゼロショットで多様な軌道追跡タスクに対して展開することができる。
論文 参考訳(メタデータ) (2025-10-20T13:34:51Z) - LLM-Empowered Agentic MAC Protocols: A Dynamic Stackelberg Game Approach [13.272022414257224]
ゲーム理論のLLMを用いたマルチエージェントDRL(MARL)フレームワークを提案する。
基地局と各種ユーザ機器間のアップリンク伝送は、動的マルチフォローラー・スタックルバーグゲーム(MFSG)としてモデル化される。
このゲームの中で、LLM駆動エージェントは、近似ポリシー最適化(PPO)を通じて調整され、適応的セマンティックMACプロトコルを合成する。
論文 参考訳(メタデータ) (2025-10-13T01:47:24Z) - Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition [52.232968183793986]
General Policy Composition (GPC) は、複数の事前学習されたポリシーの分布スコアを組み合わせることで、パフォーマンスを向上させる訓練のない手法である。
GPCは、さまざまなタスクセットにおけるパフォーマンスと適応性を一貫して改善します。
論文 参考訳(メタデータ) (2025-10-01T16:05:53Z) - Large Language Model-Empowered Decision Transformer for UAV-Enabled Data Collection [71.84636717632206]
空間分散デバイスからの信頼性とエネルギー効率のよいデータ収集のための無人航空機(UAV)は、IoT(Internet of Things)アプリケーションをサポートする上で大きな可能性を秘めている。
有効なUAV制御ポリシーを学習するための共同言語モデル(LLM)を提案する。
LLM-CRDTは、現在の最先端DTアプローチよりも最大36.7%高いエネルギー効率を達成し、オンラインおよびオフラインメソッドのベンチマークより優れている。
論文 参考訳(メタデータ) (2025-09-17T13:05:08Z) - PowerGrow: Feasible Co-Growth of Structures and Dynamics for Power Grid Synthesis [75.14189839277928]
本稿では,運用効率を維持しながら計算オーバーヘッドを大幅に削減する,共同生成フレームワークPowerGrowを提案する。
ベンチマーク設定による実験では、PowerGrowはフィデリティと多様性において、事前の拡散モデルよりも優れていた。
これは、運用上有効で現実的な電力グリッドシナリオを生成する能力を示している。
論文 参考訳(メタデータ) (2025-08-29T01:47:27Z) - Grid-Agent: An LLM-Powered Multi-Agent System for Power Grid Control [4.3210078529580045]
本稿では、グリッド違反を検出し、修正する自律型AI駆動フレームワークであるGrid-Agentを紹介する。
Grid-Agentは、意味論的推論とモジュラーエージェントによる数値的精度を統合する。
IEEEおよびCIGREベンチマークネットワークの実験は、優れた緩和性能を示す。
論文 参考訳(メタデータ) (2025-08-07T01:10:28Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Distributed-Training-and-Execution Multi-Agent Reinforcement Learning
for Power Control in HetNet [48.96004919910818]
We propose a multi-agent Deep reinforcement learning (MADRL) based power control scheme for the HetNet。
エージェント間の協調を促進するために,MADRLシステムのためのペナルティベースQラーニング(PQL)アルゴリズムを開発した。
このように、エージェントのポリシーは、他のエージェントによってより容易に学習でき、より効率的なコラボレーションプロセスをもたらす。
論文 参考訳(メタデータ) (2022-12-15T17:01:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。