Fugu-MT 論文翻訳(概要): BaCO: A Fast and Portable Bayesian Compiler Optimization Framework

論文の概要: BaCO: A Fast and Portable Bayesian Compiler Optimization Framework

arxiv url: http://arxiv.org/abs/2212.11142v1
Date: Thu, 1 Dec 2022 18:14:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-25 03:20:27.109198
Title: BaCO: A Fast and Portable Bayesian Compiler Optimization Framework
Title（参考訳）: BaCO: 高速でポータブルなベイズコンパイラ最適化フレームワーク
Authors: Erik Hellsten, Artur Souza, Johannes Lenfers, Rubens Lacouture, Olivia Hsu, Adel Ejjeh, Fredrik Kjolstad, Michel Steuwer, Kunle Olukotun, Luigi Nardi
Abstract要約: BaCOは、CPU、GPU、FPGAをターゲットにした現代のコンパイラのための汎用オートチューニングである。本稿では, TACO, RISE & ELEVATE, HPVM2FPGAの3つの近代コンパイラシステムにおいて, BaCOの有効性を実証する。 BaCOは検索予算が小さく、平均1.39x-1.89倍高速なコードを提供しており、専門家レベルのパフォーマンスは2.89x-8.77倍高速である。
参考スコア（独自算出の注目度）: 2.1639450172357186
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce the Bayesian Compiler Optimization framework (BaCO), a general purpose autotuner for modern compilers targeting CPUs, GPUs, and FPGAs. BaCO provides the flexibility needed to handle the requirements of modern autotuning tasks. Particularly, it deals with permutation, ordered, and continuous parameter types along with both known and unknown parameter constraints. To reason about these parameter types and efficiently deliver high-quality code, BaCO uses Bayesian optimization algorithms specialized towards the autotuning domain. We demonstrate BaCO's effectiveness on three modern compiler systems: TACO, RISE & ELEVATE, and HPVM2FPGA for CPUs, GPUs, and FPGAs respectively. For these domains, BaCO outperforms current state-of-the-art autotuners by delivering on average 1.39x-1.89x faster code with a tiny search budget, and BaCO is able to reach expert-level performance 2.89x-8.77x faster.
Abstract（参考訳）: 我々は、cpu、gpu、fpgaをターゲットにした現代のコンパイラのための汎用オートチューナーであるbayesian compiler optimization framework (baco)を紹介する。 BaCOは、現代的な自動チューニングタスクの要件を処理するために必要な柔軟性を提供する。特に、既知のパラメータと未知のパラメータの制約とともに、置換、順序、連続パラメータの型を扱う。これらのパラメータの型を推論し、高品質なコードを効率よく提供するために、BaCOは自動チューニングドメインに特化したベイズ最適化アルゴリズムを使用している。本稿では,CPU,GPU,FPGA用のTACO,RISE,ELEVATE,HPVM2FPGAの3つの現代コンパイラシステムにおけるBaCOの有効性を示す。これらの領域では、BaCOは、平均1.39x-1.89xの高速コードを検索予算で提供することで、現在の最先端のオートチューナーよりも優れており、BaCOは専門家レベルのパフォーマンス2.89x-8.77xの高速化を実現している。

関連論文リスト

Autocomp: LLM-Driven Code Optimization for Tensor Accelerators [7.384883165968798]
Autocompは、アクセラレータープログラマがドメイン知識とハードウェアフィードバックを利用してコードを最適化することを可能にするアプローチである。我々はAutocomp最適化コードがベンダーが提供するライブラリよりも高速に5.6倍(GEMM)と2.7倍(畳み込み)を実行することを示した。
論文参考訳（メタデータ） (2025-05-24T07:35:34Z)
CATBench: A Compiler Autotuning Benchmarking Suite for Black-box Optimization [5.909352339240516]
我々は、コンパイラ自動チューニングの複雑さを捉える包括的なベンチマークスイートであるCATBenchを紹介する。 CATBenchのベンチマークは、テンソル代数から画像処理、クラスタリングまで、機械学習指向の計算の範囲にまたがっている。我々はCATBenchをいくつかの最先端アルゴリズムで検証し、その強みと弱点を明らかにした。
論文参考訳（メタデータ） (2024-06-24T20:15:04Z)
A General Framework for User-Guided Bayesian Optimization [51.96352579696041]
コラボ (ColaBO) は、典型的なカーネル構造を超越した事前信念のための最初のベイズ原理の枠組みである。我々は,ColaBOの事前情報が正確である場合に最適化を著しく高速化し,ミスリード時のほぼ既定性能を維持する能力を実証的に実証した。
論文参考訳（メタデータ） (2023-11-24T18:27:26Z)
All-to-all reconfigurability with sparse and higher-order Ising machines [0.0]
オール・ツー・オールのネットワーク機能をエミュレートする多重アーキテクチャを導入する。適応並列テンパリングアルゴリズムの実行は、競合するアルゴリズムと事前ファクターの利点を示す。 pビットIMのスケールされた磁気バージョンは、汎用最適化のための最先端技術よりも桁違いに改善される可能性がある。
論文参考訳（メタデータ） (2023-11-21T20:27:02Z)
Use Your INSTINCT: INSTruction optimization for LLMs usIng Neural bandits Coupled with Transformers [66.823588073584]
大規模言語モデル (LLM) は命令追従能力に優れ、様々なアプリケーションで優れた性能を発揮している。最近の研究は、ブラックボックスLLMに与えられる命令を自動的に最適化するために、クエリ効率のよいベイズ最適化(BO)アルゴリズムを用いている。 NNサロゲートによりBOのGPを置換し,ブラックボックスLLMの命令を最適化するニューラルバンディットアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-02T02:01:16Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
Massively Parallel Genetic Optimization through Asynchronous Propagation of Populations [50.591267188664666]
Propulateは、グローバル最適化のための進化的最適化アルゴリズムとソフトウェアパッケージである。提案アルゴリズムは, 選択, 突然変異, 交叉, 移動の変種を特徴とする。 Propulateは解の精度を犠牲にすることなく、最大で3桁高速であることがわかった。
論文参考訳（メタデータ） (2023-01-20T18:17:34Z)
Enabling Retargetable Optimizing Compilers for Quantum Accelerators via a Multi-Level Intermediate Representation [78.8942067357231]
我々は、最適化され、再ターゲット可能で、事前コンパイルが可能なマルチレベル量子古典中間表現(IR)を提案する。ゲートベースのOpenQASM 3言語全体をサポートし、共通量子プログラミングパターンのカスタム拡張と構文の改善を提供します。私たちの研究は、通常のPythonのアプローチよりも1000倍高速で、スタンドアロンの量子言語コンパイラよりも5～10倍高速なコンパイル時間を実現しています。
論文参考訳（メタデータ） (2021-09-01T17:29:47Z)
FOGA: Flag Optimization with Genetic Algorithm [0.0]
GCCフラグ最適化のための自動チューニングソリューションとして,Frag Optimization with Genetic Algorithm (FOGA)を提案する。 FOGAによって提供される最適化フラグの助けを借りて,C++ソースコードの実行時間を大幅に高速化する。
論文参考訳（メタデータ） (2021-05-15T11:29:12Z)
Autotuning PolyBench Benchmarks with LLVM Clang/Polly Loop Optimization Pragmas Using Bayesian Optimization [0.6583716093321499]
オートチューニング(Autotuning)は、カーネルやアプリケーションの実装/設定が可能な検索スペースを探索するアプローチである。ベイズ最適化を利用してパラメータ空間探索を行う自動チューニングフレームワークを開発した。
論文参考訳（メタデータ） (2020-10-15T22:09:42Z)
Adaptive pruning-based optimization of parameterized quantum circuits [62.997667081978825]
Variisyハイブリッド量子古典アルゴリズムは、ノイズ中間量子デバイスの使用を最大化する強力なツールである。我々は、変分量子アルゴリズムで使用されるそのようなアンサーゼを「効率的な回路訓練」(PECT)と呼ぶ戦略を提案する。すべてのアンサッツパラメータを一度に最適化する代わりに、PECTは一連の変分アルゴリズムを起動する。
論文参考訳（メタデータ） (2020-10-01T18:14:11Z)
aphBO-2GP-3B: A budgeted asynchronous parallel multi-acquisition functions for constrained Bayesian optimization on high-performing computing architecture [4.738678765150249]
非同期制約付きバッチ並列ベイズ最適化法を提案する。この方法の利点は3倍である。 aphBO-2GP-3Bフレームワークは2つの高忠実度産業応用を用いて実証されている。
論文参考訳（メタデータ） (2020-03-20T18:02:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。