Fugu-MT 論文翻訳(概要): Autotuning PolyBench Benchmarks with LLVM Clang/Polly Loop Optimization Pragmas Using Bayesian Optimization (extended version)

論文の概要: Autotuning PolyBench Benchmarks with LLVM Clang/Polly Loop Optimization Pragmas Using Bayesian Optimization (extended version)

arxiv url: http://arxiv.org/abs/2104.13242v1
Date: Tue, 27 Apr 2021 14:46:57 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-28 16:41:23.337190
Title: Autotuning PolyBench Benchmarks with LLVM Clang/Polly Loop Optimization Pragmas Using Bayesian Optimization (extended version)
Title（参考訳）: Bayesian Optimization(拡張バージョン)を用いたLLVM Clang/Polly Loop Optimization PragmasによるPolyBenchベンチマークの自動チューニング
Authors: Xingfu Wu, Michael Kruse, Prasanna Balaprakash, Hal Finkel, Paul Hovland, Valerie Taylor, and Mary Hall
Abstract要約: LLVM Clang/Pollyループ最適化プラグマを用いてPolyBenchベンチマークを最適化する。次に、自動調整フレームワークを使用して、pragmaパラメータを最適化してパフォーマンスを改善します。本稿では,Floyd-Warshallベンチマークの性能向上のために,単純なmctreeオートチューニングフレームワークを用いたループ自動チューニングを提案する。
参考スコア（独自算出の注目度）: 0.8070511670572696
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we develop a ytopt autotuning framework that leverages Bayesian optimization to explore the parameter space search and compare four different supervised learning methods within Bayesian optimization and evaluate their effectiveness. We select six of the most complex PolyBench benchmarks and apply the newly developed LLVM Clang/Polly loop optimization pragmas to the benchmarks to optimize them. We then use the autotuning framework to optimize the pragma parameters to improve their performance. The experimental results show that our autotuning approach outperforms the other compiling methods to provide the smallest execution time for the benchmarks syr2k, 3mm, heat-3d, lu, and covariance with two large datasets in 200 code evaluations for effectively searching the parameter spaces with up to 170,368 different configurations. We find that the Floyd-Warshall benchmark did not benefit from autotuning because Polly uses heuristics to optimize the benchmark to make it run much slower. To cope with this issue, we provide some compiler option solutions to improve the performance. Then we present loop autotuning without a user's knowledge using a simple mctree autotuning framework to further improve the performance of the Floyd-Warshall benchmark. We also extend the ytopt autotuning framework to tune a deep learning application.
Abstract（参考訳）: 本稿では,ベイズ最適化を利用してパラメータ空間探索を行い,ベイズ最適化における4つの異なる教師付き学習手法を比較し,その有効性を評価する。我々は最も複雑なPolyBenchベンチマークを6つ選択し、新たに開発されたLLVM Clang/Pollyループ最適化プラグマをベンチマークに適用して最適化する。次に、自動チューニングフレームワークを使用して、pragmaパラメータを最適化し、パフォーマンスを向上させます。実験の結果,我々の自動チューニング手法は,最大170,368の異なるパラメータ空間を効率的に探索するための200のコード評価において,2つの大きなデータセットに対して,ベンチマーク syr2k, 3mm, Heat-3d, lu, covariance の最小実行時間を提供するために,他のコンパイル手法よりも優れていた。 Floyd-Warshallベンチマークは、Pollyがヒューリスティックスを使用してベンチマークを最適化し、実行をはるかに遅くするため、自動チューニングの恩恵を受けなかったことが分かりました。この問題に対処するため、パフォーマンスを改善するためのコンパイラオプションソリューションをいくつか提供します。次に,Floyd-Warshallベンチマークの性能向上のために,単純なmctreeオートチューニングフレームワークを用いて,ユーザの知識なしにループ自動チューニングを行う。また、ytopt自動チューニングフレームワークを拡張して、ディープラーニングアプリケーションをチューニングします。

関連論文リスト

Iterative or Innovative? A Problem-Oriented Perspective for Code Optimization [81.88668100203913]
大規模言語モデル(LLM)は、幅広いプログラミングタスクを解く上で強力な能力を示している。本稿では,パフォーマンス向上に着目したコード最適化について検討する。
論文参考訳（メタデータ） (2024-06-17T16:10:10Z)
Two Optimizers Are Better Than One: LLM Catalyst Empowers Gradient-Based Optimization for Prompt Tuning [69.95292905263393]
我々は,勾配に基づく最適化と大規模言語モデル(MsLL)が相互補完的であることを示し,協調的な最適化手法を提案する。私たちのコードはhttps://www.guozix.com/guozix/LLM-catalystでリリースされています。
論文参考訳（メタデータ） (2024-05-30T06:24:14Z)
MADA: Meta-Adaptive Optimizers through hyper-gradient Descent [73.1383658672682]
メタ適応(MADA)は、複数の既知の収束を一般化し、トレーニング中に最も適した収束を動的に学習できる統合フレームワークである。私たちは、MADAを視覚や言語タスクに関する他の人気と経験的に比較し、MADAがAdamや他の人気を一貫して上回っていることに気付きました。 AVGradは最大演算子を平均演算子に置き換えたもので、高次最適化に適している。
論文参考訳（メタデータ） (2024-01-17T00:16:46Z)
Towards General and Efficient Online Tuning for Spark [55.30868031221838]
本稿では,3つの問題を同時に処理できる汎用的で効率的なSparkチューニングフレームワークを提案する。我々は、このフレームワークを独立したクラウドサービスとして実装し、Tencentのデータプラットフォームに適用しました。
論文参考訳（メタデータ） (2023-09-05T02:16:45Z)
VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文参考訳（メタデータ） (2022-11-17T18:39:07Z)
An Empirical Evaluation of Zeroth-Order Optimization Methods on AI-driven Molecule Optimization [78.36413169647408]
分子目的を最適化するための様々なZO最適化手法の有効性について検討する。 ZO符号に基づく勾配降下(ZO-signGD)の利点を示す。本稿では,Guurcamol スイートから広く使用されているベンチマークタスクに対して,ZO 最適化手法の有効性を示す。
論文参考訳（メタデータ） (2022-10-27T01:58:10Z)
Efficient Non-Parametric Optimizer Search for Diverse Tasks [93.64739408827604]
興味のあるタスクを直接検索できる,スケーラブルで汎用的なフレームワークを初めて提示する。基礎となる数学表現の自然木構造に着想を得て、空間を超木に再配置する。我々は,モンテカルロ法を木探索に適用し,レジェクションサンプリングと等価形状検出を備える。
論文参考訳（メタデータ） (2022-09-27T17:51:31Z)
Learning to Superoptimize Real-world Programs [79.4140991035247]
本稿では,ニューラルシークエンス・ツー・シーケンス・モデルを用いて,実世界のプログラムを最適化するフレームワークを提案する。我々は、x86-64アセンブリでオープンソースプロジェクトから抽出された25万以上の実世界の関数からなるデータセットであるBig Assemblyベンチマークを紹介した。
論文参考訳（メタデータ） (2021-09-28T05:33:21Z)
Automatic Tuning of Tensorflow's CPU Backend using Gradient-Free Optimization Algorithms [0.6543507682026964]
Deep Learning (DL) アプリケーションは、ジーンやPyTorchといったDLライブラリやフレームワークを使って構築されている。これらのフレームワークは複雑なパラメータを持ち、優れたトレーニングを得るために調整する。そこで,本論文では,トレーニングと推論性能を改善するために,DLフレームワークのパラメータをチューニングする問題をブラックボックス問題として扱う。
論文参考訳（メタデータ） (2021-09-13T19:10:23Z)
Using hardware performance counters to speed up autotuning convergence on GPUs [0.0]
チューニング空間を探索する新しい手法を提案する。この方法は、経験的チューニング中にハードウェアパフォーマンスカウンタを収集する。提案手法は,アプリケーションが異なるハードウェアに移植される必要がある場合や,異なる特性を持つデータを処理する必要がある場合,自動チューニングを高速化できることを実験的に実証する。
論文参考訳（メタデータ） (2021-02-10T07:42:39Z)
Autotuning PolyBench Benchmarks with LLVM Clang/Polly Loop Optimization Pragmas Using Bayesian Optimization [0.6583716093321499]
オートチューニング(Autotuning)は、カーネルやアプリケーションの実装/設定が可能な検索スペースを探索するアプローチである。ベイズ最適化を利用してパラメータ空間探索を行う自動チューニングフレームワークを開発した。
論文参考訳（メタデータ） (2020-10-15T22:09:42Z)
Autotuning Search Space for Loop Transformations [0.03683202928838612]
本稿では,木の形をとるループ変換探索空間を提案する。検索空間を探索する簡単なオートチューナーを実装し,選択したPolyBenchカーネルに適用した。
論文参考訳（メタデータ） (2020-10-13T16:26:57Z)
Static Neural Compiler Optimization via Deep Reinforcement Learning [1.458855293397494]
本稿では,位相整合問題に対する深層強化学習手法を用いる。 LLVMのO3シークエンスを構成するサブシーケンスを用いて、エージェントはトレーニングに使用するソースコードのセット上でO3シークエンスより優れていることを学習する。我々は、我々のアプローチを用いて訓練されたモデルは、ニューラル最適化エージェントとして現代のコンパイラに統合できると考えている。
論文参考訳（メタデータ） (2020-08-20T13:16:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。