論文の概要: OptiML: An End-to-End Framework for Program Synthesis and CUDA Kernel Optimization
- arxiv url: http://arxiv.org/abs/2602.12305v1
- Date: Thu, 12 Feb 2026 04:50:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.701224
- Title: OptiML: An End-to-End Framework for Program Synthesis and CUDA Kernel Optimization
- Title(参考訳): OptiML: プログラム合成とCUDAカーネル最適化のためのエンドツーエンドフレームワーク
- Authors: Arijit Bhattacharjee, Heng Ping, Son Vu Le, Paul Bogdan, Nesreen K. Ahmed, Ali Jannesari,
- Abstract要約: 我々は、自然言語インテントまたは入力コードをパフォーマンス最適化カーネルにマッピングするエンドツーエンドフレームワークOptiMLを提案する。
検索ベース(OptiML-X)は、プロファイラのフィードバックから導かれるハードウェア駆動の報酬によって導かれる、LCM対応のMonte Carlo Tree Searchを用いて、合成されたカーネルまたはユーザが提供するカーネルを洗練する。
- 参考スコア(独自算出の注目度): 21.882017397032964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating high-performance CUDA kernels remains challenging due to the need to navigate a combinatorial space of low-level transformations under noisy and expensive hardware feedback. Although large language models can synthesize functionally correct CUDA code, achieving competitive performance requires systematic exploration and verification of optimization choices. We present OptiML, an end-to-end framework that maps either natural-language intent or input CUDA code to performance-optimized CUDA kernels by formulating kernel optimization as search under verification. OptiML consists of two decoupled stages. When the input is natural language, a Mixture-of-Thoughts generator (OptiML-G) acts as a proposal policy over kernel implementation strategies, producing an initial executable program. A search-based optimizer (OptiML-X) then refines either synthesized or user-provided kernels using Monte Carlo Tree Search over LLM-driven edits, guided by a hardware-aware reward derived from profiler feedback. Each candidate transformation is compiled, verified, and profiled with Nsight Compute, and evaluated by a composite objective that combines runtime with hardware bottleneck proxies and guardrails against regressions. We evaluate OptiML in both synthesis-and-optimize and optimization-only settings on a diverse suite of CUDA kernels. Results show that OptiML consistently discovers verified performance improvements over strong LLM baselines and produces interpretable optimization trajectories grounded in profiler evidence.
- Abstract(参考訳): 高性能なCUDAカーネルの生成は、ノイズの多い高価なハードウェアフィードバックの下で低レベルの変換の組合せ空間をナビゲートする必要があるため、依然として困難である。
大規模言語モデルは機能的に正しいCUDAコードを合成できるが、競合性能を達成するには体系的な探索と最適化の選択の検証が必要である。
提案するOptiMLは、自然言語インテントまたは入力CUDAコードを性能最適化されたCUDAカーネルにマッピングし、カーネル最適化を検証対象の検索として定式化することで、エンドツーエンドのフレームワークである。
OptiMLは2つの分離ステージから構成される。
入力が自然言語の場合、OptiML-G (Mixture-of-Thoughts Generator) はカーネルの実装戦略に対する提案ポリシーとして機能し、初期実行プログラムを生成する。
次に、検索ベースのオプティマイザ(OptiML-X)は、プロファイラフィードバックからハードウェアに認識された報酬によってガイドされる、LCM駆動の編集よりもモンテカルロツリーサーチを用いて、合成されたカーネルまたはユーザが提供するカーネルを洗練する。
各候補変換は、Nsight Computeでコンパイル、検証、プロファイルされ、ランタイムとハードウェアボトルネックプロキシとレグレッションに対するガードレールを組み合わせた複合目的によって評価される。
我々は、CUDAカーネルの多種多様なスイート上で、OptiMLを合成と最適化と最適化のみの設定の両方で評価する。
その結果,OptiMLは強力なLCMベースライン上での検証性能の向上を一貫して発見し,プロファイラエビデンスに基づく解釈可能な最適化トラジェクトリを生成することがわかった。
関連論文リスト
- LOOPRAG: Enhancing Loop Transformation Optimization with Retrieval-Augmented Large Language Models [23.6344001089164]
LOOPRAGは,Large Language Models (LLM) の効率的なループ最適化を行うための検索拡張生成フレームワークである。
ループ特性を利用するパラメータ駆動方式を導入し、様々なループ変換をトリガーし、多様だが合法的なサンプルコードを生成する。
正確かつ効率的なコード生成を実現するために,コンパイル,テスト,パフォーマンス結果を組み込んだフィードバックベースの反復機構を導入する。
論文 参考訳(メタデータ) (2025-12-12T11:09:48Z) - STARK: Strategic Team of Agents for Refining Kernels [23.717055490630596]
我々は,GPUカーネル最適化のためのエージェントフレームワークを導入し,マルチエージェント協調による設計空間を探索する。
このフレームワークはエキスパートエンジニアのワークフローを模倣し、LCMがハードウェアトレードオフを推論し、プロファイリングフィードバックを取り入れ、カーネルを反復的に洗練することを可能にする。
我々は,LLMに基づくカーネル最適化のベンチマークであるKernelBenchに対するアプローチを評価し,ベースラインエージェントよりも大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-10-19T20:41:46Z) - Combining Large Language Models and Gradient-Free Optimization for Automatic Control Policy Synthesis [2.8593976574111264]
大型言語モデル (LLM) は、シンボル制御ポリシーのジェネレータとして期待されている。
パラメータ最適化から構造合成を分離するハイブリッド手法を提案する。
シンボルプログラム合成と数値最適化を組み合わせることで、解釈可能ながら高い性能のポリシーが得られることを示す。
論文 参考訳(メタデータ) (2025-10-01T00:42:15Z) - REASONING COMPILER: LLM-Guided Optimizations for Efficient Model Serving [6.19179006129561]
本稿では,逐次的かつコンテキスト対応な意思決定プロセスとして最適化を定式化する,新しいコンパイルフレームワーク(Dubbed Reasoning)を提案する。
提案手法は,LLM誘導推論がコンパイラ最適化のランドスケープを変革する可能性を示す。
論文 参考訳(メタデータ) (2025-06-02T07:02:46Z) - Scaffolded Language Models with Language Supervision for Mixed-Autonomy: A Survey [52.00674453604779]
本調査は,戦後のLM周辺における新規構造物の設計と最適化に関する文献を整理した。
本稿では,この階層構造を足場型LMと呼び,ツールを用いた多段階プロセスに統合されたLMに焦点を当てる。
論文 参考訳(メタデータ) (2024-10-21T18:06:25Z) - LLM as a Complementary Optimizer to Gradient Descent: A Case Study in Prompt Tuning [69.95292905263393]
グラデーションベースとハイレベルなLLMは、協調最適化フレームワークを効果的に組み合わせることができることを示す。
本稿では,これらを相互に補完し,組み合わせた最適化フレームワークを効果的に連携させることができることを示す。
論文 参考訳(メタデータ) (2024-05-30T06:24:14Z) - Learning to Superoptimize Real-world Programs [79.4140991035247]
本稿では,ニューラルシークエンス・ツー・シーケンス・モデルを用いて,実世界のプログラムを最適化するフレームワークを提案する。
我々は、x86-64アセンブリでオープンソースプロジェクトから抽出された25万以上の実世界の関数からなるデータセットであるBig Assemblyベンチマークを紹介した。
論文 参考訳(メタデータ) (2021-09-28T05:33:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。