論文の概要: Kareus: Joint Reduction of Dynamic and Static Energy in Large Model Training
- arxiv url: http://arxiv.org/abs/2601.17654v1
- Date: Sun, 25 Jan 2026 02:17:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.113193
- Title: Kareus: Joint Reduction of Dynamic and Static Energy in Large Model Training
- Title(参考訳): Kareus:大規模モデルトレーニングにおける動的エネルギーと静的エネルギーの併用削減
- Authors: Ruofan Wu, Jae-Won Chung, Mosharaf Chowdhury,
- Abstract要約: 微細なカーネルスケジューリングと周波数スケーリングは、動的および静的なエネルギー消費の両方に共同かつ相互に影響を及ぼすことがわかった。
この発見に基づいて、両方の側面を最適化することで、時間エネルギーのトレードオフフロンティアをプッシュするトレーニングシステムであるKareusを設計する。
技術水準と比較して、カレウスはトレーニングのエネルギーを同時に28.3%削減するか、同じエネルギー消費で最大27.5%削減する。
- 参考スコア(独自算出の注目度): 11.29281138764255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The computing demand of AI is growing at an unprecedented rate, but energy supply is not keeping pace. As a result, energy has become an expensive, contended resource that requires explicit management and optimization. Although recent works have made significant progress in large model training optimization, they focus only on a single aspect of energy consumption: dynamic or static energy. We find that fine-grained kernel scheduling and frequency scaling jointly and interdependently impact both dynamic and static energy consumption. Based on this finding, we design Kareus, a training system that pushes the time--energy tradeoff frontier by optimizing both aspects. Kareus decomposes the intractable joint optimization problem into local, partition-based subproblems. It then uses a multi-pass multi-objective optimization algorithm to find execution schedules that push the time--energy tradeoff frontier. Compared to the state of the art, Kareus reduces training energy by up to 28.3% at the same training time, or reduces training time by up to 27.5% at the same energy consumption.
- Abstract(参考訳): AIのコンピューティング需要は前例のないペースで伸びているが、エネルギー供給はペースを保っていない。
その結果、エネルギーは明示的な管理と最適化を必要とする高価な競合資源となった。
最近の研究は大規模なモデルトレーニングの最適化において大きな進歩を遂げているが、それらはエネルギー消費の単一側面(動的または静的エネルギー)にのみ焦点をあてている。
微細なカーネルスケジューリングと周波数スケーリングは、動的および静的なエネルギー消費の両方に共同かつ相互に影響を及ぼすことがわかった。
この発見に基づいて、両方の側面を最適化することで、時間エネルギーのトレードオフフロンティアをプッシュするトレーニングシステムであるKareusを設計する。
Kareusは、難解な共同最適化問題を局所的分割型サブプロブレムに分解する。
次に、マルチパス多目的最適化アルゴリズムを使用して、時間-エネルギートレードオフフロンティアをプッシュする実行スケジュールを見つける。
最先端と比較して、カレウスはトレーニングのエネルギーを同時に最大28.3%削減するか、同じエネルギー消費で最大27.5%削減する。
関連論文リスト
- Generalizable Reasoning through Compositional Energy Minimization [91.76056742068813]
一般化は機械学習、特に推論タスクにおいて重要な課題である。
より小さく、よりトラクタブルなサブプロブレムの解空間上のエネルギーランドスケープを学習することで一般化を推論する新しい手法を提案する。
提案手法は既存の最先端手法よりも優れており,より大規模で複雑な問題に一般化できることを示す。
論文 参考訳(メタデータ) (2025-10-23T14:38:36Z) - Learning Iterative Reasoning through Energy Diffusion [90.24765095498392]
我々は,エネルギー拡散による反復的推論(IRED)を紹介した。
IREDは入力条件と所望の出力の間の制約を表現するためにエネルギー関数を学ぶ。
IREDは、連続空間推論、離散空間推論、計画タスクにおいて既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-17T03:36:47Z) - Reducing Energy Bloat in Large Model Training [6.138143013019595]
トレーニング中に消費されるすべてのエネルギーが、エンドツーエンドのスループットに直接寄与する訳ではない。
本研究では,大規模モデルトレーニングにおける2つの独立したエネルギー肥大源を特定し,両者を緩和するトレーニングシステムであるPerseusを提案する。
これを実現するために、Perseusは効率的なグラフカットベースのアルゴリズムを用いて、大規模なモデルトレーニングジョブの時間-エネルギートレードオフフロンティアを取得し、時間にわたってエネルギー消費をスケジュールし、両方のタイプのエネルギー肥大を減少させる。
論文 参考訳(メタデータ) (2023-12-12T00:16:18Z) - Sustainable AIGC Workload Scheduling of Geo-Distributed Data Centers: A
Multi-Agent Reinforcement Learning Approach [48.18355658448509]
生成的人工知能の最近の進歩は、機械学習トレーニングの需要が急増し、エネルギー消費の大幅な増加によるコスト負担と環境問題を引き起こしている。
地理的に分散したクラウドデータセンタ間でのトレーニングジョブのスケジューリングは、安価で低炭素エネルギーのコンピューティング能力の使用を最適化する機会を浮き彫りにする。
本研究では,実生活におけるワークロードパターン,エネルギー価格,炭素強度を組み込んだクラウドシステムと対話することで,マルチエージェント強化学習とアクタクリティカルな手法に基づく最適協調スケジューリング戦略の学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-17T02:12:30Z) - Zeus: Understanding and Optimizing GPU Energy Consumption of DNN
Training [5.050131615803843]
ディープニューラルネットワーク(DNN)のトレーニングは、毎年ますますリソースとエネルギー集約化が進んでいる。
本稿では、トレーニング性能を改善するための一般的な実践が、しばしば非効率なエネルギー消費につながることを観察する。
我々は、最適なジョブレベルとGPUレベルの設定を自動的に見つけることで、このトレードオフをナビゲートする最適化フレームワークZeusを提案する。
論文 参考訳(メタデータ) (2022-08-12T03:50:53Z) - Compute and Energy Consumption Trends in Deep Learning Inference [67.32875669386488]
コンピュータビジョンと自然言語処理の分野における関連モデルについて検討する。
継続的な性能向上のために、これまで予想されていたよりもエネルギー消費の軟化が見られた。
論文 参考訳(メタデータ) (2021-09-12T09:40:18Z) - ECO: Enabling Energy-Neutral IoT Devices through Runtime Allocation of
Harvested Energy [0.8774604259603302]
本稿では,エネルギー制約下での目標デバイスの有用性を最適化するランタイムベースのエネルギー配分フレームワークを提案する。
提案フレームワークは, 効率的な反復アルゴリズムを用いて, 初期エネルギー割り当てを1日の初めに計算する。
このフレームワークは、太陽と運動エネルギーの収穫モードと、4772の異なるユーザーからのアメリカンタイムユースサーベイデータを使用して評価します。
論文 参考訳(メタデータ) (2021-02-26T17:21:25Z) - Data-driven optimization of building layouts for energy efficiency [0.0]
本稿では,この関係に基づいて照明システムのエネルギー消費をシミュレーションし,照明ゾーンエネルギーをゾーンレベルの占有動態に関連付ける手法を提案する。
本研究は, 利用者の日程の不均質な行動が, 高可制御性照明システムのエネルギー消費と正の相関関係があることを事例として明らかにした。
さらに,データ駆動型シミュレーションにより,165人からなる実オフィススペースの既設レイアウトと比較して,ナイーブなクラスタリングに基づく最適化と遺伝的アルゴリズムがエネルギー消費を約5%削減するレイアウトを生成することがわかった。
論文 参考訳(メタデータ) (2020-07-24T22:58:16Z) - Risk-Aware Energy Scheduling for Edge Computing with Microgrid: A
Multi-Agent Deep Reinforcement Learning Approach [82.6692222294594]
マイクログリッドを用いたMECネットワークにおけるリスク対応エネルギースケジューリング問題について検討する。
ニューラルネットワークを用いたマルチエージェントディープ強化学習(MADRL)に基づくアドバンテージアクター・クリティック(A3C)アルゴリズムを適用し,その解を導出する。
論文 参考訳(メタデータ) (2020-02-21T02:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。