論文の概要: Grouptuner: Efficient Group-Aware Compiler Auto-tuning
- arxiv url: http://arxiv.org/abs/2505.08598v1
- Date: Tue, 13 May 2025 14:13:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.600886
- Title: Grouptuner: Efficient Group-Aware Compiler Auto-tuning
- Title(参考訳): Grouptuner: 効率的なグループ対応コンパイラ自動チューニング
- Authors: Bingyu Gao, Mengyu Yao, Ziming Wang, Dong Liu, Ding Li, Xiangqun Chen, Yao Guo,
- Abstract要約: GroupTunerは、歴史的に最高のパフォーマンスの組み合わせに基づいて、コヒーレントオプショングループに局所突然変異を適用するグループ認識自動チューニング技術である。
実験によると、GroupTunerは競争力のあるオプションの組み合わせを効率的に発見でき、平均性能は-O3よりも12.39%向上している。
- 参考スコア(独自算出の注目度): 14.545919877837436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern compilers typically provide hundreds of options to optimize program performance, but users often cannot fully leverage them due to the huge number of options. While standard optimization combinations (e.g., -O3) provide reasonable defaults, they often fail to deliver near-peak performance across diverse programs and architectures. To address this challenge, compiler auto-tuning techniques have emerged to automate the discovery of improved option combinations. Existing techniques typically focus on identifying critical options and prioritizing them during the search to improve efficiency. However, due to limited tuning iterations, the resulting data is often sparse and noisy, making it highly challenging to accurately identify critical options. As a result, these algorithms are prone to being trapped in local optima. To address this limitation, we propose GroupTuner, a group-aware auto-tuning technique that directly applies localized mutation to coherent option groups based on historically best-performing combinations, thus avoiding explicitly identifying critical options. By forgoing the need to know precisely which options are most important, GroupTuner maximizes the use of existing performance data, ensuring more targeted exploration. Extensive experiments demonstrate that GroupTuner can efficiently discover competitive option combinations, achieving an average performance improvement of 12.39% over -O3 while requiring only 77.21% of the time compared to the random search algorithm, significantly outperforming state-of-the-art methods.
- Abstract(参考訳): 現代のコンパイラは通常、プログラムのパフォーマンスを最適化する数百のオプションを提供するが、多くのオプションがあるため、ユーザーはそれを完全に活用できないことが多い。
標準的な最適化の組み合わせ(例えば -O3)は妥当なデフォルトを提供するが、様々なプログラムやアーキテクチャでほぼピークに近いパフォーマンスを提供できないことが多い。
この課題に対処するため、コンパイラの自動チューニング技術が登場し、改善されたオプションの組み合わせの発見が自動化された。
既存のテクニックは、通常、重要なオプションを特定し、効率を改善するために検索中にそれらを優先順位付けすることに焦点を当てる。
しかし、チューニングのイテレーションが限られているため、結果として得られるデータは希少でノイズが多いため、重要なオプションを正確に識別することは極めて困難である。
その結果、これらのアルゴリズムは局所的なオプティマに閉じ込められる傾向にある。
この制限に対処するため,グループアウェア自動チューニング技術であるGroupTunerを提案する。
どの選択肢が最も重要なのかを正確に知る必要をなくすことで、GroupTunerは既存のパフォーマンスデータの使用を最大化し、よりターゲットを絞った調査を確実にする。
大規模な実験により、GroupTunerは競合するオプションの組み合わせを効率的に発見でき、平均性能は-O3よりも12.39%向上し、ランダム検索アルゴリズムに比べて77.21%の時間しか要しないことがわかった。
関連論文リスト
- Localized Zeroth-Order Prompt Optimization [54.964765668688806]
そこで我々は,ZOPO(Localized zeroth-order prompt optimization)という新しいアルゴリズムを提案する。
ZOPOはニューラル・タンジェント・カーネルをベースとしたガウス法を標準ゼロ階次最適化に取り入れ、高速な局所最適探索を高速化する。
注目すべきは、ZOPOは最適化性能とクエリ効率の両方の観点から、既存のベースラインを上回っていることだ。
論文 参考訳(メタデータ) (2024-03-05T14:18:15Z) - Controllable Prompt Tuning For Balancing Group Distributional Robustness [53.336515056479705]
グループ間で優れたパフォーマンスを実現するための最適化スキームを導入し、それらの性能を著しく犠牲にすることなく、全員に良い解決策を見出す。
本稿では,制御可能なプロンプトチューニング(CPT)を提案する。
突発的相関ベンチマークでは, 変換器と非変換器の両アーキテクチャ, および非モーダルおよびマルチモーダルデータにまたがって, 最先端の結果が得られた。
論文 参考訳(メタデータ) (2024-03-05T06:23:55Z) - Towards General and Efficient Online Tuning for Spark [55.30868031221838]
本稿では,3つの問題を同時に処理できる汎用的で効率的なSparkチューニングフレームワークを提案する。
我々は、このフレームワークを独立したクラウドサービスとして実装し、Tencentのデータプラットフォームに適用しました。
論文 参考訳(メタデータ) (2023-09-05T02:16:45Z) - Efficient Non-Parametric Optimizer Search for Diverse Tasks [93.64739408827604]
興味のあるタスクを直接検索できる,スケーラブルで汎用的なフレームワークを初めて提示する。
基礎となる数学表現の自然木構造に着想を得て、空間を超木に再配置する。
我々は,モンテカルロ法を木探索に適用し,レジェクションサンプリングと等価形状検出を備える。
論文 参考訳(メタデータ) (2022-09-27T17:51:31Z) - Non-Elitist Selection Can Improve the Performance of Irace [0.8258451067861933]
本研究では,旅行セールスパーソン問題に対するアリコロニー最適化アルゴリズムのチューニング方法と2次代入問題について検討する。
実験結果から, テストベンチマークでは, iraceの既定選択よりも改善が見られた。
さらに, この結果から, アルゴリズムの動作を理解するため, 多様なアルゴリズム構成が得られることが示唆された。
論文 参考訳(メタデータ) (2022-03-17T10:34:30Z) - Optimizer Amalgamation [124.33523126363728]
私たちは、Amalgamationという新しい問題の研究を動機付けています。"Teacher"アマルガメーションのプールを、より強力な問題固有のパフォーマンスを持つ単一の"学生"にどのように組み合わせるべきなのでしょうか?
まず、勾配降下による解析のプールをアマルガメートする3つの異なるメカニズムを定義する。
また, プロセスの分散を低減するため, 目標を摂動させることでプロセスの安定化を図る。
論文 参考訳(メタデータ) (2022-03-12T16:07:57Z) - Bayesian Optimization for auto-tuning GPU kernels [0.0]
GPUカーネルの最適パラメータ設定を見つけることは、たとえ自動化されても、大規模な検索スペースにとって簡単な作業ではない。
拡張性を改善した新しい文脈探索機能と,情報機能選択機構を併用した新しい獲得機能を導入する。
論文 参考訳(メタデータ) (2021-11-26T11:26:26Z) - Analysis of the Performance of Algorithm Configurators for Search
Heuristics with Global Mutation Operators [0.0]
ParamRLSは、局所探索で使用する最適な近傍サイズを効率的に特定できる。
そこで,ParamRLS-Fは,両問題クラスにおける最適パラメータ値の最適化時間よりもかなり小さいカットオフ時間を用いても,最適な突然変異率を識別できることを示す。
論文 参考訳(メタデータ) (2020-04-09T12:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。