論文の概要: ytopt: Autotuning Scientific Applications for Energy Efficiency at Large
Scales
- arxiv url: http://arxiv.org/abs/2303.16245v1
- Date: Tue, 28 Mar 2023 18:50:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 17:11:37.733329
- Title: ytopt: Autotuning Scientific Applications for Energy Efficiency at Large
Scales
- Title(参考訳): ytopt:大規模エネルギー効率のための科学応用の自動化
- Authors: Xingfu Wu, Prasanna Balaprakash, Michael Kruse, Jaehoon Koo, Brice
Videau, Paul Hovland, Valerie Taylor, Brad Geltz, Siddhartha Jana, and Mary
Hall
- Abstract要約: 我々は,様々なハイブリッドMPI/OpenMP科学応用を大規模に行うために,性能とエネルギーを自動チューニングする低オーバーヘッドオートチューニングフレームワークを提案する。
我々はこのフレームワークを使って、XSBench、AMG、SWFFT、SW4liteという4つのECPプロキシアプリケーションを自動チューニングします。
提案された自動チューニングフレームワークを使用して、最高の構成を特定することで、最大91.59%のパフォーマンス改善、21.2%の省エネ、最大4,096ノードでの37.84%の改善を実現しました。
- 参考スコア(独自算出の注目度): 0.5498849973527227
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As we enter the exascale computing era, efficiently utilizing power and
optimizing the performance of scientific applications under power and energy
constraints has become critical and challenging. We propose a low-overhead
autotuning framework to autotune performance and energy for various hybrid
MPI/OpenMP scientific applications at large scales and to explore the tradeoffs
between application runtime and power/energy for energy efficient application
execution, then use this framework to autotune four ECP proxy applications --
XSBench, AMG, SWFFT, and SW4lite. Our approach uses Bayesian optimization with
a Random Forest surrogate model to effectively search parameter spaces with up
to 6 million different configurations on two large-scale production systems,
Theta at Argonne National Laboratory and Summit at Oak Ridge National
Laboratory. The experimental results show that our autotuning framework at
large scales has low overhead and achieves good scalability. Using the proposed
autotuning framework to identify the best configurations, we achieve up to
91.59% performance improvement, up to 21.2% energy savings, and up to 37.84%
EDP improvement on up to 4,096 nodes.
- Abstract(参考訳): エクサスケールコンピューティング時代に入るにつれて、電力とエネルギーの制約の下での科学応用の効率と性能の最適化が重要かつ困難になっている。
本稿では,多種多様なハイブリッドMPI/OpenMP科学アプリケーションの性能とエネルギを大規模に自動チューニングする低オーバーヘッド自動チューニングフレームワークを提案し,アプリケーションランタイムと省エネアプリケーション実行のパワー/エネルギのトレードオフを探索し,このフレームワークを用いて4つのECPプロキシアプリケーション(XSBench,AMG,SWFFT,SW4lite)を自動チューニングする。
本手法は,ランダムフォレストサーロゲートモデルを用いたベイズ最適化を用いて,アルゴンヌ国立研究所のthetaとオークリッジ国立研究所のsummitという2つの大規模生産システム上で,600万以上の異なる構成のパラメータ空間を効果的に探索する。
実験の結果,大規模自動チューニングフレームワークのオーバーヘッドは低く,スケーラビリティも良好であることが判明した。
提案する自動チューニングフレームワークを用いて、最大91.59%のパフォーマンス改善、最大21.2%の省エネ、最大4,096ノードでの37.84%のedp改善を実現しました。
関連論文リスト
- EdgeOL: Efficient in-situ Online Learning on Edge Devices [47.19771423065623]
EdgeOLは、推論精度、微調整実行時間、エネルギー効率を最適化するエッジオンライン学習フレームワークである。
実験結果から,EdgeOLは全体の微調整実行時間を平均82%削減し,エネルギー消費量を74%削減し,オンライン学習戦略よりも平均推定精度を1.70%向上させることがわかった。
論文 参考訳(メタデータ) (2024-01-30T02:41:05Z) - DiffNAS: Bootstrapping Diffusion Models by Prompting for Better
Architectures [63.12993314908957]
そこで我々は,DiffNASと呼ばれるベースモデル探索手法を提案する。
GPT-4をスーパーネットとして利用して検索を高速化し,検索メモリを補足して結果を向上する。
厳密な実験により,GPTに基づくシナリオでは,探索効率を2倍に向上できることが示された。
論文 参考訳(メタデータ) (2023-10-07T09:10:28Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Learning Regions of Interest for Bayesian Optimization with Adaptive
Level-Set Estimation [84.0621253654014]
本稿では,高信頼領域を適応的にフィルタするBALLETというフレームワークを提案する。
理論的には、BALLETは探索空間を効率的に縮小することができ、標準BOよりも厳密な後悔を示すことができる。
論文 参考訳(メタデータ) (2023-07-25T09:45:47Z) - Generating Exact Optimal Designs via Particle Swarm Optimization:
Assessing Efficacy and Efficiency via Case Study [0.0]
本稿では,PSOの効率性と有効性の両方をベンチマークし,高品質な候補設計を実現する大規模コンピュータ研究の結果について述べる。
PSOは1回の実行でも、小さな計算コストで高い確率で高効率な設計を生成する。
論文 参考訳(メタデータ) (2022-06-14T16:00:22Z) - LassoBench: A High-Dimensional Hyperparameter Optimization Benchmark
Suite for Lasso [84.6451154376526]
LassoBenchは、Lassoコミュニティで重要なオープンリサーチトピックに適した、新しいベンチマークスイートである。
我々は5つの最先端HPO法と3つのベースラインを評価し、ベイズ最適化が、特にスパース回帰によく用いられる手法よりも改善できることを実証した。
論文 参考訳(メタデータ) (2021-11-04T12:05:09Z) - FantastIC4: A Hardware-Software Co-Design Approach for Efficiently
Running 4bit-Compact Multilayer Perceptrons [19.411734658680967]
深層ニューラルネットワーク(DNN)の高効率な実行エンジンを得るためのソフトウェアハードウェア最適化パラダイムを提案する。
私たちのアプローチは、予測性能の高い多層パーセプトロン(MLP)の面積と電力要件を低減するための手段として、圧縮を中心にしています。
仮想超大規模FPGA XCVU440デバイス実装では総消費電力3.6Wで2.45 TOPSのスループットを達成し、22nmプロセスASICバージョンでは20.17 TOPS/Wの総電力効率を達成できることを示した。
論文 参考訳(メタデータ) (2020-12-17T19:10:04Z) - A novel machine learning-based optimization algorithm (ActivO) for
accelerating simulation-driven engine design [0.0]
提案手法は,弱い学習者と強い学習者の予測をアクティブな学習ループ内で活用するサロゲートに基づくスキームである。
ActivOは、グローバル最適に到達するために必要な機能評価の数を減らし、設計までの時間を80%削減します。
論文 参考訳(メタデータ) (2020-12-08T13:39:51Z) - Adaptive pruning-based optimization of parameterized quantum circuits [62.997667081978825]
Variisyハイブリッド量子古典アルゴリズムは、ノイズ中間量子デバイスの使用を最大化する強力なツールである。
我々は、変分量子アルゴリズムで使用されるそのようなアンサーゼを「効率的な回路訓練」(PECT)と呼ぶ戦略を提案する。
すべてのアンサッツパラメータを一度に最適化する代わりに、PECTは一連の変分アルゴリズムを起動する。
論文 参考訳(メタデータ) (2020-10-01T18:14:11Z) - The Case for Learning Application Behavior to Improve Hardware Energy
Efficiency [2.4425948078034847]
得られた知識をハードウェア構成のチューニングに利用することを提案する。
提案手法はFOECASTERと呼ばれ、ディープラーニングモデルを用いて、ハードウェアリソースの構成がアプリケーションの特定の動作に最適なエネルギー効率を提供するかを学習する。
この結果から,ForECASTERは全リソースに設定されたベースライン上で最大18.4%のシステム電力を節約できることがわかった。
論文 参考訳(メタデータ) (2020-04-27T18:11:12Z) - Bayesian Optimization for Policy Search in High-Dimensional Systems via
Automatic Domain Selection [1.1240669509034296]
我々は,BOを高次元制御タスクに拡張するために,最適制御による結果を活用することを提案する。
BO問題を単純化するために,学習したダイナミクスモデルをモデルベースコントローラと組み合わせて利用する方法を示す。
本報告では,クワッドコプターの48次元ポリシを含む実ハードウェアおよびシミュレーションタスクについて実験的に評価する。
論文 参考訳(メタデータ) (2020-01-21T09:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。