Fugu-MT 論文翻訳(概要): Power Constrained Autotuning using Graph Neural Networks

論文の概要: Power Constrained Autotuning using Graph Neural Networks

arxiv url: http://arxiv.org/abs/2302.11467v1
Date: Wed, 22 Feb 2023 16:06:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-23 14:48:16.091086
Title: Power Constrained Autotuning using Graph Neural Networks
Title（参考訳）: グラフニューラルネットワークを用いた電力制約自動調整
Authors: Akash Dutta, Jee Choi, Ali Jannesari
Abstract要約: 本稿では,最新のプロセッサ上での科学応用の性能,パワー,エネルギー効率を向上させるための,グラフニューラルネットワークに基づく新しい自動チューニング手法を提案する。提案手法では,標準のOpenMP構成に対して,平均的な幾何的性能改善が25%以上,13%以上となる,異なる電力制約でOpenMP構成を識別する。
参考スコア（独自算出の注目度）: 1.7188280334580197
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in multi and many-core processors have led to significant improvements in the performance of scientific computing applications. However, the addition of a large number of complex cores have also increased the overall power consumption, and power has become a first-order design constraint in modern processors. While we can limit power consumption by simply applying software-based power constraints, applying them blindly will lead to non-trivial performance degradation. To address the challenge of improving the performance, power, and energy efficiency of scientific applications on modern multi-core processors, we propose a novel Graph Neural Network based auto-tuning approach that (i) optimizes runtime performance at pre-defined power constraints, and (ii) simultaneously optimizes for runtime performance and energy efficiency by minimizing the energy-delay product. The key idea behind this approach lies in modeling parallel code regions as flow-aware code graphs to capture both semantic and structural code features. We demonstrate the efficacy of our approach by conducting an extensive evaluation on $30$ benchmarks and proxy-/mini-applications with $68$ OpenMP code regions. Our approach identifies OpenMP configurations at different power constraints that yield a geometric mean performance improvement of more than $25\%$ and $13\%$ over the default OpenMP configuration on a 32-core Skylake and a $16$-core Haswell processor respectively. In addition, when we optimize for the energy-delay product, the OpenMP configurations selected by our auto-tuner demonstrate both performance improvement of $21\%$ and $11\%$ and energy reduction of $29\%$ and $18\%$ over the default OpenMP configuration at Thermal Design Power for the same Skylake and Haswell processors, respectively.
Abstract（参考訳）: マルチコアおよびマルチコアプロセッサの最近の進歩は、科学計算アプリケーションの性能を大幅に向上させた。しかし、多くの複雑なコアの追加は全体の消費電力を増加させ、現代のプロセッサでは電力は一階設計の制約となっている。単にソフトウェアベースの電力制約を適用することで消費電力を制限できるが、それを盲目的に適用すると、非自明なパフォーマンス低下につながる。最新のマルチコアプロセッサ上での科学応用の性能,パワー,エネルギー効率の向上という課題に対処するために,グラフニューラルネットワークを用いた自動チューニング手法を提案する。 i) 予め定義された電力制約で実行時のパフォーマンスを最適化し、 (II) エネルギー遅延生成物を最小化することにより、ランタイム性能とエネルギー効率を同時に最適化する。このアプローチの背後にある重要なアイデアは、並列コード領域をフロー対応コードグラフとしてモデル化し、セマンティックコードと構造コードの両方の特徴をキャプチャすることだ。提案手法の有効性は,30ドルのベンチマークとプロキシ/ミニアプリケーションに対して,68ドルのOpenMPコード領域で広範な評価を行うことによって実証する。提案手法では,32コアのskylakeと16$-coreのhaswellプロセッサのデフォルトのopenmp構成と比較して,それぞれ25\%$と13\%$以上の幾何学的平均性能向上を実現する,異なる電力制約下でのopenmp構成を識別する。さらに、エネルギー遅延製品を最適化する場合、自動チューニングによって選択されたOpenMP構成は、それぞれ同じSkylakeプロセッサとHaswellプロセッサで、デフォルトのOpenMP構成に対して、21 %$と11 %$のパフォーマンス改善と29 %$と18 %$のエネルギー削減の両方を示します。

関連論文リスト

GPU Performance Portability needs Autotuning [0.0]
LLMは複雑さが増し、最先端のパフォーマンスを達成するには、アルゴリズム、ソフトウェア、ハードウェア間の密な共同設計が必要である。 JIT(Just-in-time)コンパイルと包括的カーネルパラメータの自動チューニングを併用する。我々の結果は、GPUベンダー間のモデルポータビリティをアンロックするための有望なパスとして、オートチューニングを強調しています。
論文参考訳（メタデータ） (2025-04-30T12:57:21Z)
HEPPO: Hardware-Efficient Proximal Policy Optimization -- A Universal Pipelined Architecture for Generalized Advantage Estimation [0.0]
HEPPOはFPGAベースのアクセラレーターで、プロキシポリシー最適化における一般化アドバンテージ推定の段階を最適化するために設計された。鍵となる革新は、動的報酬標準化と値のブロック標準化を組み合わせた戦略的標準化技術であり、8ビット均一量子化が続く。私たちのシングルチップソリューションは通信遅延とスループットのボトルネックを最小限にし、PPOトレーニングの効率を大幅に向上します。
論文参考訳（メタデータ） (2025-01-22T08:18:56Z)
Energy consumption of code small language models serving with runtime engines and execution providers [11.998900897003997]
小言語モデル(SLM)は、リソース要求を減らすための有望なソリューションを提供する。私たちのゴールは、ディープラーニングエンジンと実行プロバイダがエネルギー消費、実行時間、コンピューティング-リソース利用に与える影響を分析することです。
論文参考訳（メタデータ） (2024-12-19T22:44:02Z)
EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文参考訳（メタデータ） (2024-10-16T05:17:49Z)
Multi-GPU RI-HF Energies and Analytic Gradients $-$ Towards High Throughput Ab Initio Molecular Dynamics [0.0]
本稿では,複数グラフィクス処理ユニット(GPU)を用いた高次ハートリー・フォックエネルギーと解析勾配の解法を最適化したアルゴリズムと実装を提案する。このアルゴリズムは特に、中小分子(10-100原子)の高スループット初期分子動力学シミュレーションのために設計されている。
論文参考訳（メタデータ） (2024-07-29T00:14:10Z)
AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer [54.713778961605115]
Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
論文参考訳（メタデータ） (2024-07-17T18:38:48Z)
Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。 MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。 Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文参考訳（メタデータ） (2023-05-30T02:24:03Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
ParaGraph: Weighted Graph Representation for Performance Optimization of HPC Kernels [1.304892050913381]
抽象構文木を拡張した並列アプリケーションのためのグラフベースの新しいプログラム表現を提案する。提案した表現は,OpenMPコード領域のランタイムを予測するために,グラフニューラルネットワーク(GNN)をトレーニングすることで評価する。その結果,本手法は実効性があり,実行時予測では 0.004 から 0.01 に RMSE を正規化していることがわかった。
論文参考訳（メタデータ） (2023-04-07T05:52:59Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文参考訳（メタデータ） (2022-09-20T09:28:26Z)
iELAS: An ELAS-Based Energy-Efficient Accelerator for Real-Time Stereo Matching on FPGA Platform [21.435663827158564]
FPGAプラットフォーム上でのリアルタイムELASステレオマッチングのためのエネルギー効率の高いアーキテクチャを提案する。当社のFPGA実現は、38.4xと3.32xのフレームレート改善、27.1xと1.13xのエネルギー効率改善を実現します。
論文参考訳（メタデータ） (2021-04-11T21:22:54Z)
Source Code Classification for Energy Efficiency in Parallel Ultra Low-Power Microcontrollers [5.4352987210173955]
本稿では,ソフトウェアツールチェーンの知性を向上し,最新のアーキテクチャを最大限に活用することを目的とする。低電力の並列組込みアーキテクチャの場合、これは、例えばコア数の観点から構成を見つけることを意味し、最小限のエネルギー消費につながる。実験によれば、ソースコード上で機械学習モデルを使用して最適なエネルギースケーリング構成を自動的に選択することは可能であり、エネルギー最小化のための自動システム構成のコンテキストで使用できる可能性がある。
論文参考訳（メタデータ） (2020-12-12T15:12:03Z)
Adaptive pruning-based optimization of parameterized quantum circuits [62.997667081978825]
Variisyハイブリッド量子古典アルゴリズムは、ノイズ中間量子デバイスの使用を最大化する強力なツールである。我々は、変分量子アルゴリズムで使用されるそのようなアンサーゼを「効率的な回路訓練」(PECT)と呼ぶ戦略を提案する。すべてのアンサッツパラメータを一度に最適化する代わりに、PECTは一連の変分アルゴリズムを起動する。
論文参考訳（メタデータ） (2020-10-01T18:14:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。