論文の概要: KernelBand: Boosting LLM-based Kernel Optimization with a Hierarchical and Hardware-aware Multi-armed Bandit
- arxiv url: http://arxiv.org/abs/2511.18868v1
- Date: Mon, 24 Nov 2025 08:11:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.101304
- Title: KernelBand: Boosting LLM-based Kernel Optimization with a Hierarchical and Hardware-aware Multi-armed Bandit
- Title(参考訳): KernelBand: 階層的でハードウェア対応のマルチアームバンドを用いたLLMベースのカーネル最適化
- Authors: Dezhi Ran, Shuxiao Xie, Mingfang Ji, Ziyue Hua, Mengzhou Wu, Yuan Cao, Yuzhe Guo, Yu Hao, Linyi Li, Yitao Hu, Tao Xie,
- Abstract要約: KernelBandは、カーネル最適化を階層的な多重武装バンディット問題として定式化する新しいフレームワークである。
我々はKernelBandが最先端の手法よりも優れており、より少ないトークンで優れた性能を実現し、計算資源の増加とともに飽和を伴わずに一貫した改善を実現していることを示す。
- 参考スコア(独自算出の注目度): 15.810081332925584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High quality kernels are critical for reducing training and inference costs of Large Language Models (LLMs), yet they traditionally require significant expertise in hardware architecture and software optimization. While recent advances in LLM-based code generation show promise for complex optimization, existing methods struggle with the vast optimization space due to insufficient hardware domain knowledge, failing to effectively balance exploration and exploitation. We present KernelBand, a novel framework that formulates kernel optimization as a hierarchical multi-armed bandit problem, enabling LLM agents to strategically navigate the optimization space by treating kernel selection and optimization strategy application as sequential decision-making processes. Our approach leverages hardware profiling information to identify promising optimization strategies and employs runtime behavior clustering to reduce exploration overhead across kernel candidates. Extensive experiments on TritonBench demonstrate that KernelBand significantly outperforms state-of-the-art methods, achieving superior performance with fewer tokens while exhibiting consistent improvement without saturation as computational resources increase.
- Abstract(参考訳): 高品質のカーネルは、Large Language Models (LLMs) のトレーニングと推論コストを削減するために重要であるが、伝統的にハードウェアアーキテクチャとソフトウェア最適化の専門知識を必要とする。
LLMベースのコード生成の最近の進歩は、複雑な最適化を約束することを示しているが、既存のメソッドはハードウェアドメインの知識が不足し、探索とエクスプロイトの効果的なバランスが取れなかったため、膨大な最適化スペースに苦戦している。
本稿では,カーネル選択と最適化戦略を逐次決定プロセスとして扱うことで,LLMエージェントが最適化空間を戦略的にナビゲートすることを可能にする,階層的マルチアームバンディット問題としてカーネル最適化を定式化する新しいフレームワークであるKernelBandを提案する。
提案手法では,ハードウェアのプロファイリング情報を利用して,期待できる最適化戦略を特定し,カーネル候補間の探索オーバーヘッドを低減するために,実行時の動作クラスタリングを利用する。
TritonBenchでの大規模な実験により、カーネルバンドは最先端の手法を著しく上回り、より少ないトークンで優れた性能を達成し、計算資源の増加とともに飽和のない一貫した改善を実現した。
関連論文リスト
- STARK: Strategic Team of Agents for Refining Kernels [23.717055490630596]
我々は,GPUカーネル最適化のためのエージェントフレームワークを導入し,マルチエージェント協調による設計空間を探索する。
このフレームワークはエキスパートエンジニアのワークフローを模倣し、LCMがハードウェアトレードオフを推論し、プロファイリングフィードバックを取り入れ、カーネルを反復的に洗練することを可能にする。
我々は,LLMに基づくカーネル最適化のベンチマークであるKernelBenchに対するアプローチを評価し,ベースラインエージェントよりも大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-10-19T20:41:46Z) - GPU Kernel Scientist: An LLM-Driven Framework for Iterative Kernel Optimization [0.0]
本稿では,アクセルカーネルを反復精製する自動化手法を提案する。
本手法は多段階進化過程においてLLMを用いる。
このアプローチがAMD MI300ターゲットアーキテクチャの課題をどのようにナビゲートするかを詳述する。
論文 参考訳(メタデータ) (2025-06-25T19:59:34Z) - A Survey on Inference Optimization Techniques for Mixture of Experts Models [50.40325411764262]
大規模Mixture of Experts(MoE)モデルは、条件計算によるモデル容量と計算効率の向上を提供する。
これらのモデル上で推論をデプロイし実行することは、計算資源、レイテンシ、エネルギー効率において大きな課題を示す。
本調査では,システムスタック全体にわたるMoEモデルの最適化手法について分析する。
論文 参考訳(メタデータ) (2024-12-18T14:11:15Z) - Blind Super-Resolution via Meta-learning and Markov Chain Monte Carlo Simulation [46.5310645609264]
本稿では,メタラーニングとマルコフ・チェイン・モンテカルロに基づくSISRアプローチを提案する。
軽量ネットワークがカーネルジェネレータとして採用され、ランダムガウス分布のMCMCシミュレーションから学習することで最適化される。
カーネルジェネレータと画像復元器を最適化するために,メタラーニングに基づく交互最適化手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T07:50:15Z) - CompilerDream: Learning a Compiler World Model for General Code Optimization [58.87557583347996]
汎用コード最適化のためのモデルベース強化学習手法であるCompilerDreamを紹介する。
最適化パスの固有の特性を正確にシミュレートするコンパイラの世界モデルと、このモデルで訓練されたエージェントから、効率的な最適化戦略を生成する。
さまざまなデータセットを網羅し、LLVMのビルトイン最適化や、値予測とエンドツーエンドコード最適化の両方の設定における最先端メソッドを超越している。
論文 参考訳(メタデータ) (2024-04-24T09:20:33Z) - Sparsity-Aware Distributed Learning for Gaussian Processes with Linear Multiple Kernel [20.98449975854329]
本稿では,新しいGP線形多重カーネル (LMK) と,ハイパーパラメータを最適化する汎用空間認識分散学習フレームワークを提案する。
新たに提案されたグリッドスペクトル混合製品(GSMP)カーネルは,多次元データ用に調整されている。
そこで本研究では,Sparse LInear Multiple Kernel Learning (SLIM-KL) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-15T07:05:33Z) - Learning Performance-Improving Code Edits [107.21538852090208]
本稿では,大規模言語モデル(LLM)を高レベルプログラム最適化に適用するためのフレームワークを提案する。
まず、競争力のある77,000以上のC++プログラミングサブミッションペアによる、人間のプログラマによるパフォーマンス改善編集のデータセットをキュレートする。
提案手法は,検索をベースとした少数ショットプロンプトとチェーン・オブ・シンクレットを提案し,その微調整には,自己再生に基づく性能条件付き生成と合成データ拡張が含まれる。
論文 参考訳(メタデータ) (2023-02-15T18:59:21Z) - An Empirical Evaluation of Zeroth-Order Optimization Methods on
AI-driven Molecule Optimization [78.36413169647408]
分子目的を最適化するための様々なZO最適化手法の有効性について検討する。
ZO符号に基づく勾配降下(ZO-signGD)の利点を示す。
本稿では,Guurcamol スイートから広く使用されているベンチマークタスクに対して,ZO 最適化手法の有効性を示す。
論文 参考訳(メタデータ) (2022-10-27T01:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。