Fugu-MT 論文翻訳(概要): Compiler-R1: Towards Agentic Compiler Auto-tuning with Reinforcement Learning

論文の概要: Compiler-R1: Towards Agentic Compiler Auto-tuning with Reinforcement Learning

arxiv url: http://arxiv.org/abs/2506.15701v1
Date: Fri, 30 May 2025 00:26:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-29 09:28:14.76573
Title: Compiler-R1: Towards Agentic Compiler Auto-tuning with Reinforcement Learning
Title（参考訳）: コンパイラR1:強化学習によるエージェントコンパイラ自動チューニングを目指して
Authors: Haolin Pan, Hongyu Lin, Haoran Luo, Yang Liu, Kaichun Yao, Libo Zhang, Mingjie Xing, Yanjun Wu,
Abstract要約: コンパイラ自動チューニングのための最初の強化学習(RL)フレームワークであるCompiler-R1を紹介する。私たちのコードとデータセットはhttps://github.com/Panhaolin2001/Compiler-R1.comで公開されています。
参考スコア（独自算出の注目度）: 31.639220758810747
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Compiler auto-tuning optimizes pass sequences to improve performance metrics such as Intermediate Representation (IR) instruction count. Although recent advances leveraging Large Language Models (LLMs) have shown promise in automating compiler tuning, two significant challenges still remain: the absence of high-quality reasoning datasets for agents training, and limited effective interactions with the compilation environment. In this work, we introduce Compiler-R1, the first reinforcement learning (RL)-driven framework specifically augmenting LLM capabilities for compiler auto-tuning. Compiler-R1 features a curated, high-quality reasoning dataset and a novel two-stage end-to-end RL training pipeline, enabling efficient environment exploration and learning through an outcome-based reward. Extensive experiments across seven datasets demonstrate Compiler-R1 achieving an average 8.46% IR instruction count reduction compared to opt -Oz, showcasing the strong potential of RL-trained LLMs for compiler optimization. Our code and datasets are publicly available at https://github.com/Panhaolin2001/Compiler-R1.
Abstract（参考訳）: コンパイラの自動チューニングは、中間表現(IR)命令カウントなどのパフォーマンス指標を改善するために、パスシーケンスを最適化する。近年のLLM(Large Language Models)を活用した進歩はコンパイラチューニングの自動化を約束しているが、エージェントトレーニングのための高品質な推論データセットの欠如と、コンパイル環境との効果的な相互作用の制限という2つの大きな課題が残っている。本稿では,コンパイラ自動チューニングのためのLLM機能強化を目的とした,最初の強化学習(RL)駆動フレームワークであるCompiler-R1を紹介する。 Compiler-R1は、キュレートされた高品質な推論データセットと、新たな2段階のエンドツーエンドのRLトレーニングパイプラインを備え、結果ベースの報酬を通じて効率的な環境探索と学習を可能にする。 7つのデータセットにわたる大規模な実験により、コンパイラ-R1はOpto-Ozと比較して平均8.46%のIR命令数削減を実現しており、コンパイラ最適化のためにRL訓練されたLLMの強い可能性を示している。私たちのコードとデータセットはhttps://github.com/Panhaolin2001/Compiler-R1.comで公開されています。

関連論文リスト

ChipSeek-R1: Generating Human-Surpassing RTL with LLM via Hierarchical Reward-Driven Reinforcement Learning [32.11086992218369]
ChipSeek-R1は、大規模な言語モデルのための階層的な報酬駆動強化学習フレームワークである。関数的正当性とPPA最適化の両方のRTLコードを生成する。 RTLLMのベンチマークでは、ChipSeek-R1はオリジナルの人間の書いたコードのPPAメトリクスを超える27のRTL設計を作成した。
論文参考訳（メタデータ） (2025-07-07T08:08:20Z)
DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。本研究は,それらの認知過程と強化学習手法について考察する。我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文参考訳（メタデータ） (2025-06-25T17:35:47Z)
CodeV-R1: Reasoning-Enhanced Verilog Generation [43.18692355644548]
大きな言語モデル(LLM)は、強化学習と検証可能な報酬(RLVR)によって訓練され、明示的で自動化可能な検証を伴うタスクにおいてブレークスルーを達成した。しかし、自然言語(NL)仕様からVerilogのようなハードウェア記述言語(HDL)を自動的に生成するRLVRの拡張には、3つの大きな課題がある。本稿では,Verilog 生成 LLM をトレーニングするための RLVR フレームワークである CodeV-R1 を紹介する。
論文参考訳（メタデータ） (2025-05-30T03:51:06Z)
Co-Reinforcement Learning for Unified Multimodal Understanding and Generation [53.03303124157899]
本稿では,統一多モーダル大言語モデル(ULM)に対するグループ相対的政策最適化による強化学習(RL)の先駆的な探索について述べる。共同最適化のための統一RLステージとタスク固有強化のための改良RLステージからなる協調強化学習フレームワークであるCoRLを紹介する。提案したCoRLでは,3つのテキスト・画像生成データセットで平均7%,9つのマルチモーダル理解ベンチマークで平均23%の改善を実現している。
論文参考訳（メタデータ） (2025-05-23T06:41:07Z)
Towards Generalizable Trajectory Prediction Using Dual-Level Representation Learning And Adaptive Prompting [107.4034346788744]
既存の車両軌道予測モデルは、一般化可能性、予測の不確実性、複雑な相互作用を扱う。本研究では,(1)自己拡張(SD)とマスドレコンストラクション(MR)による二重レベル表現学習,グローバルコンテキストと細部の詳細の収集,(2)レジスタベースのクエリと事前学習の強化,クラスタリングと抑圧の必要性の排除,(3)微調整中の適応型プロンプトチューニング,メインアーキテクチャの凍結,および少数のプロンプトの最適化といった,新たなトラジェクタ予測フレームワークであるPerceiverを提案する。
論文参考訳（メタデータ） (2025-01-08T20:11:09Z)
A Reinforcement Learning Environment for Automatic Code Optimization in the MLIR Compiler [0.10923877073891444]
本稿では,MLIRコンパイラ研究の促進を目的とした,MLIRコンパイラの最初のRL環境について紹介する。また、より単純なアクション部分空間の積として作用空間の新たな定式化を提案し、より効率的かつ効率的な最適化を可能にした。
論文参考訳（メタデータ） (2024-09-17T10:49:45Z)
MIREncoder: Multi-modal IR-based Pretrained Embeddings for Performance Optimizations [6.919817502555546]
本稿では,Multi-modal IRベースのオートエンコーダであるMIREncoderを提案する。マルチモーダルなアプローチにより、コンパイル可能なプログラムからより優れた特徴を抽出できる。評価の結果,提案手法はオーバヘッドを低減しつつ,技術状況より優れることが示された。
論文参考訳（メタデータ） (2024-07-02T13:00:19Z)
Self-Constructed Context Decompilation with Fined-grained Alignment Enhancement [43.2637367483626]
逆コンパイルは、ソースコードが利用できない場合、コンパイルされたコードをハイレベルなプログラミング言語に変換する。これまでの研究は主に、モデルパラメータのスケールや事前トレーニングのためのトレーニングデータを増やすことで、デコンパイル性能の向上に重点を置いてきた。これら2つの手法を統合することで、Decompile-Evalベンチマークで約3.90%の再実行可能性向上を実現し、新しい最先端性能52.41%を確立した。
論文参考訳（メタデータ） (2024-06-25T02:37:53Z)
REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文参考訳（メタデータ） (2024-04-25T17:20:45Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
Efficient Parallel Reinforcement Learning Framework using the Reactor Model [2.190190313041532]
強化学習(RL)フレームワークは、RLワークロードを複数の計算リソースにマッピングするために不可欠である。 Rayのような既存のフレームワークは、このオーケストレーションを効率的に管理していない。我々は,アクターの集合が固定的な通信パターンを持つように強制するリアクターモデルを実装するソリューションを提案している。
論文参考訳（メタデータ） (2023-12-07T21:19:57Z)
RA-DIT: Retrieval-Augmented Dual Instruction Tuning [90.98423540361946]
Retrieval-augmented Language Model (RALMs) は、外部データストアからロングテールおよび最新の知識にアクセスすることで、パフォーマンスを向上させる。既存のアプローチでは、LM事前トレーニングに高価な検索固有の修正が必要になるか、あるいは、最適以下のパフォーマンスをもたらすデータストアのポストホック統合を使用する必要がある。本稿では,第3の選択肢を提供する軽量な微調整手法であるRetrieval-Augmented Dual Instruction Tuning (RA-DIT)を紹介する。
論文参考訳（メタデータ） (2023-10-02T17:16:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。