論文の概要: Compiler-R1: Towards Agentic Compiler Auto-tuning with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.15701v1
- Date: Fri, 30 May 2025 00:26:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-29 09:28:14.76573
- Title: Compiler-R1: Towards Agentic Compiler Auto-tuning with Reinforcement Learning
- Title(参考訳): コンパイラR1:強化学習によるエージェントコンパイラ自動チューニングを目指して
- Authors: Haolin Pan, Hongyu Lin, Haoran Luo, Yang Liu, Kaichun Yao, Libo Zhang, Mingjie Xing, Yanjun Wu,
- Abstract要約: コンパイラ自動チューニングのための最初の強化学習(RL)フレームワークであるCompiler-R1を紹介する。
私たちのコードとデータセットはhttps://github.com/Panhaolin2001/Compiler-R1.comで公開されています。
- 参考スコア(独自算出の注目度): 31.639220758810747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compiler auto-tuning optimizes pass sequences to improve performance metrics such as Intermediate Representation (IR) instruction count. Although recent advances leveraging Large Language Models (LLMs) have shown promise in automating compiler tuning, two significant challenges still remain: the absence of high-quality reasoning datasets for agents training, and limited effective interactions with the compilation environment. In this work, we introduce Compiler-R1, the first reinforcement learning (RL)-driven framework specifically augmenting LLM capabilities for compiler auto-tuning. Compiler-R1 features a curated, high-quality reasoning dataset and a novel two-stage end-to-end RL training pipeline, enabling efficient environment exploration and learning through an outcome-based reward. Extensive experiments across seven datasets demonstrate Compiler-R1 achieving an average 8.46% IR instruction count reduction compared to opt -Oz, showcasing the strong potential of RL-trained LLMs for compiler optimization. Our code and datasets are publicly available at https://github.com/Panhaolin2001/Compiler-R1.
- Abstract(参考訳): コンパイラの自動チューニングは、中間表現(IR)命令カウントなどのパフォーマンス指標を改善するために、パスシーケンスを最適化する。
近年のLLM(Large Language Models)を活用した進歩はコンパイラチューニングの自動化を約束しているが、エージェントトレーニングのための高品質な推論データセットの欠如と、コンパイル環境との効果的な相互作用の制限という2つの大きな課題が残っている。
本稿では,コンパイラ自動チューニングのためのLLM機能強化を目的とした,最初の強化学習(RL)駆動フレームワークであるCompiler-R1を紹介する。
Compiler-R1は、キュレートされた高品質な推論データセットと、新たな2段階のエンドツーエンドのRLトレーニングパイプラインを備え、結果ベースの報酬を通じて効率的な環境探索と学習を可能にする。
7つのデータセットにわたる大規模な実験により、コンパイラ-R1はOpto-Ozと比較して平均8.46%のIR命令数削減を実現しており、コンパイラ最適化のためにRL訓練されたLLMの強い可能性を示している。
私たちのコードとデータセットはhttps://github.com/Panhaolin2001/Compiler-R1.comで公開されています。
関連論文リスト
- CodeV-R1: Reasoning-Enhanced Verilog Generation [43.18692355644548]
大きな言語モデル(LLM)は、強化学習と検証可能な報酬(RLVR)によって訓練され、明示的で自動化可能な検証を伴うタスクにおいてブレークスルーを達成した。
しかし、自然言語(NL)仕様からVerilogのようなハードウェア記述言語(HDL)を自動的に生成するRLVRの拡張には、3つの大きな課題がある。
本稿では,Verilog 生成 LLM をトレーニングするための RLVR フレームワークである CodeV-R1 を紹介する。
論文 参考訳(メタデータ) (2025-05-30T03:51:06Z) - Co-Reinforcement Learning for Unified Multimodal Understanding and Generation [53.03303124157899]
本稿では,統一多モーダル大言語モデル(ULM)に対するグループ相対的政策最適化による強化学習(RL)の先駆的な探索について述べる。
共同最適化のための統一RLステージとタスク固有強化のための改良RLステージからなる協調強化学習フレームワークであるCoRLを紹介する。
提案したCoRLでは,3つのテキスト・画像生成データセットで平均7%,9つのマルチモーダル理解ベンチマークで平均23%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-23T06:41:07Z) - A Reinforcement Learning Environment for Automatic Code Optimization in the MLIR Compiler [0.10923877073891444]
本稿では,MLIRコンパイラ研究の促進を目的とした,MLIRコンパイラの最初のRL環境について紹介する。
また、より単純なアクション部分空間の積として作用空間の新たな定式化を提案し、より効率的かつ効率的な最適化を可能にした。
論文 参考訳(メタデータ) (2024-09-17T10:49:45Z) - Self-Constructed Context Decompilation with Fined-grained Alignment Enhancement [43.2637367483626]
逆コンパイルは、ソースコードが利用できない場合、コンパイルされたコードをハイレベルなプログラミング言語に変換する。
これまでの研究は主に、モデルパラメータのスケールや事前トレーニングのためのトレーニングデータを増やすことで、デコンパイル性能の向上に重点を置いてきた。
これら2つの手法を統合することで、Decompile-Evalベンチマークで約3.90%の再実行可能性向上を実現し、新しい最先端性能52.41%を確立した。
論文 参考訳(メタデータ) (2024-06-25T02:37:53Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Efficient Parallel Reinforcement Learning Framework using the Reactor
Model [2.190190313041532]
強化学習(RL)フレームワークは、RLワークロードを複数の計算リソースにマッピングするために不可欠である。
Rayのような既存のフレームワークは、このオーケストレーションを効率的に管理していない。
我々は,アクターの集合が固定的な通信パターンを持つように強制するリアクターモデルを実装するソリューションを提案している。
論文 参考訳(メタデータ) (2023-12-07T21:19:57Z) - RA-DIT: Retrieval-Augmented Dual Instruction Tuning [90.98423540361946]
Retrieval-augmented Language Model (RALMs) は、外部データストアからロングテールおよび最新の知識にアクセスすることで、パフォーマンスを向上させる。
既存のアプローチでは、LM事前トレーニングに高価な検索固有の修正が必要になるか、あるいは、最適以下のパフォーマンスをもたらすデータストアのポストホック統合を使用する必要がある。
本稿では,第3の選択肢を提供する軽量な微調整手法であるRetrieval-Augmented Dual Instruction Tuning (RA-DIT)を紹介する。
論文 参考訳(メタデータ) (2023-10-02T17:16:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。