論文の概要: GRACE: Globally-Seeded Representation-Aware Cluster-Specific Evolution for Compiler Auto-Tuning
- arxiv url: http://arxiv.org/abs/2510.13176v1
- Date: Wed, 15 Oct 2025 06:01:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.51583
- Title: GRACE: Globally-Seeded Representation-Aware Cluster-Specific Evolution for Compiler Auto-Tuning
- Title(参考訳): GRACE: コンパイラ自動チューニングのためのグローバルシードの表現型クラスタ固有の進化
- Authors: Haolin Pan, Chao Zha, Jinyuan Dong, Mingjie Xing, Yanjun Wu,
- Abstract要約: 本稿では,LLVM IR命令数最適化のためのコンパイラ自動チューニングフレームワーク GRACE を紹介する。
GRACEは、パスシナジーと重み付けされたスコアリング法を利用して、探索空間を効果的に削減し、初期品質の高い候補シーケンスとパスプールを生成する。
次に、パスシーケンスベースのデータ拡張を使用してコントラスト学習を使用して、類似性を認識したクラスタリングを容易にするプログラム埋め込みを生成する。
- 参考スコア(独自算出の注目度): 10.225578019039506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compiler pass selection and phase ordering present a significant challenge in achieving optimal program performance, particularly for objectives like code size reduction. Standard compiler heuristics offer general applicability but often yield suboptimal, program-specific results due to their one-size-fits-all nature. While iterative compilation can find tailored solutions, its prohibitive search cost limits practical use. Machine learning approaches promise faster inference but frequently struggle with generalization to unseen programs. This paper introduces GRACE, a novel framework for compiler auto-tuning, demonstrated for LLVM IR instruction count optimization. GRACE effectively curtails the search space by leveraging pass synergies and a weighted scoring method to generate initial high-quality candidate sequences and a pass pool. It then employs contrastive learning, using pass sequence-based data augmentation, to create program embeddings that facilitate similarity-aware clustering. Evolutionary search within these clusters yields a coreset of $k$ specialized pass sequences designed for robust generalization to unseen programs. At test time, GRACE efficiently selects the best coreset sequence and refines it using lightweight techniques. Experimental results on seven diverse datasets show that GRACE reduces LLVM IR instruction count by an average of 10.09% on LLVM 10.0.0 and 10.19% on LLVM 18.1.6 compared to opt -Oz, while incurring an average tuning time of less than 1s per program, demonstrating its state-of-the-art performance and practical effectiveness.
- Abstract(参考訳): コンパイラのパス選択とフェーズオーダリングは、特にコードサイズ削減などの目的において、最適なプログラム性能を達成する上で大きな課題となる。
標準的なコンパイラヒューリスティックは一般的な適用性を提供するが、一つのサイズにフィットする性質のため、しばしばプログラム固有の準最適結果が得られる。
反復的なコンパイルは、カスタマイズされたソリューションを見つけることができるが、その禁止された検索コストは実用的利用を制限する。
機械学習アプローチは高速な推論を約束するが、目に見えないプログラムへの一般化にしばしば苦労する。
本稿では,LLVM IR命令数最適化のためのコンパイラ自動チューニングフレームワーク GRACE を紹介する。
GRACEは、パスシナジーと重み付けされたスコアリング法を利用して、探索空間を効果的に削減し、初期品質の高い候補シーケンスとパスプールを生成する。
次に、パスシーケンスベースのデータ拡張を使用してコントラスト学習を使用して、類似性を認識したクラスタリングを容易にするプログラム埋め込みを生成する。
これらのクラスタ内の進化的探索は、目に見えないプログラムへの堅牢な一般化のために設計された、$k$の特殊パスシーケンスのコアセットを得る。
テスト時には、GRACEは最適なコアセットシーケンスを効率よく選択し、軽量な技術を使ってそれを洗練します。
7つの多様なデータセットによる実験結果によると、GRACEはLLVM 18.1.6では平均10.09%、LLVM 18.1.6では平均10.19%、プログラム毎の平均チューニング時間は1秒未満であり、最先端のパフォーマンスと実用性を示している。
関連論文リスト
- Behavioral Embeddings of Programs: A Quasi-Dynamic Approach for Optimization Prediction [35.89884852302035]
本稿では,プログラム表現のための新しい準動的フレームワークを提案する。
中心となる洞察は、プログラムの最適化感度をモデル化することである。
この高次元連続スペクトルを効果的に符号化するために,我々は合成学習アプローチを開拓した。
論文 参考訳(メタデータ) (2025-10-15T05:18:41Z) - Compiler-R1: Towards Agentic Compiler Auto-tuning with Reinforcement Learning [31.639220758810747]
コンパイラ自動チューニングのための最初の強化学習(RL)フレームワークであるCompiler-R1を紹介する。
私たちのコードとデータセットはhttps://github.com/Panhaolin2001/Compiler-R1.comで公開されています。
論文 参考訳(メタデータ) (2025-05-30T00:26:10Z) - LLM Program Optimization via Retrieval Augmented Search [71.40092732256252]
提案手法は,提案手法によって最適化されたビーム探索を行う検索アルゴリズムであるRetrieval Augmented Search (RAS) である。
我々は、RASが従来の最先端のブラックボックス適応戦略よりも1.8$times$パフォーマンスが高いことを示す。
また、トレーニング例を「アトミックな編集」に分解することで、解釈可能性を向上させるAEGISと呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2025-01-31T06:34:47Z) - Performance Embeddings: A Similarity-based Approach to Automatic
Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。
本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文 参考訳(メタデータ) (2023-03-14T15:51:35Z) - Learning Performance-Improving Code Edits [107.21538852090208]
本稿では,大規模言語モデル(LLM)を高レベルプログラム最適化に適用するためのフレームワークを提案する。
まず、競争力のある77,000以上のC++プログラミングサブミッションペアによる、人間のプログラマによるパフォーマンス改善編集のデータセットをキュレートする。
提案手法は,検索をベースとした少数ショットプロンプトとチェーン・オブ・シンクレットを提案し,その微調整には,自己再生に基づく性能条件付き生成と合成データ拡張が含まれる。
論文 参考訳(メタデータ) (2023-02-15T18:59:21Z) - InvAASTCluster: On Applying Invariant-Based Program Clustering to Introductory Programming Assignments [0.0]
本稿では,プログラムクラスタリングの新しいアプローチであるInvAASTClusterを提案する。
InvAASTClusterのプログラム表現は、その不変性と構造を通して、プログラムのセマンティクスの組み合わせを使用する。
以上の結果から,InvAASTClusterはクラスタリングベースの修復ツールで使用する場合,最先端の処理を高速化することがわかった。
論文 参考訳(メタデータ) (2022-06-28T17:42:28Z) - Learning from Self-Sampled Correct and Partially-Correct Programs [96.66452896657991]
そこで本研究では,モデルが学習中にサンプリングを行い,自己サンプリングされた完全正当プログラムと部分正当プログラムの両方から学習することを提案する。
自己サンプリング型プログラムと部分修正型プログラムを併用することで,学習とサンプリングプロセスのガイドに役立てることができることを示す。
提案手法は,MLEを用いた単一の参照プログラムからの学習と比較して,パス@kの性能を3.1%から12.3%向上させる。
論文 参考訳(メタデータ) (2022-05-28T03:31:07Z) - Learning to Superoptimize Real-world Programs [79.4140991035247]
本稿では,ニューラルシークエンス・ツー・シーケンス・モデルを用いて,実世界のプログラムを最適化するフレームワークを提案する。
我々は、x86-64アセンブリでオープンソースプロジェクトから抽出された25万以上の実世界の関数からなるデータセットであるBig Assemblyベンチマークを紹介した。
論文 参考訳(メタデータ) (2021-09-28T05:33:21Z) - Searching for More Efficient Dynamic Programs [61.79535031840558]
本稿では,プログラム変換の集合,変換プログラムの効率を評価するための単純な指標,およびこの指標を改善するための探索手順について述べる。
実際に、自動検索は初期プログラムの大幅な改善を見出すことができることを示す。
論文 参考訳(メタデータ) (2021-09-14T20:52:55Z) - ProGraML: Graph-based Deep Learning for Program Optimization and
Analysis [16.520971531754018]
本稿では,機械学習のためのグラフベースのプログラム表現であるProGraMLを紹介する。
ProGraMLは平均94.0F1スコアを獲得し、最先端のアプローチを著しく上回っている。
そして、我々のアプローチを2つのハイレベルなタスク - 不均一なデバイスマッピングとプログラム分類 - に適用し、その両方で新しい最先端のパフォーマンスを設定します。
論文 参考訳(メタデータ) (2020-03-23T20:27:00Z) - AutoPhase: Juggling HLS Phase Orderings in Random Forests with Deep
Reinforcement Learning [17.584552398664737]
AutoPhaseは、プログラムを受け取り、深い強化学習を使用して、実行時間を最小限にするコンパイルパスのシーケンスを見つけるフレームワークである。
本稿では,-O3コンパイラフラグを使用する場合と比較して,AutoPhaseは回路性能を28%向上することを示す。
既存の最先端のソリューションとは異なり、我々の深層強化学習ソリューションは、実際のベンチマークを一般化する有望な結果を示している。
論文 参考訳(メタデータ) (2020-03-02T05:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。