Fugu-MT 論文翻訳(概要): KernelBand: Boosting LLM-based Kernel Optimization with a Hierarchical and Hardware-aware Multi-armed Bandit

論文の概要: KernelBand: Boosting LLM-based Kernel Optimization with a Hierarchical and Hardware-aware Multi-armed Bandit

arxiv url: http://arxiv.org/abs/2511.18868v1
Date: Mon, 24 Nov 2025 08:11:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-25 18:34:25.101304
Title: KernelBand: Boosting LLM-based Kernel Optimization with a Hierarchical and Hardware-aware Multi-armed Bandit
Title（参考訳）: KernelBand: 階層的でハードウェア対応のマルチアームバンドを用いたLLMベースのカーネル最適化
Authors: Dezhi Ran, Shuxiao Xie, Mingfang Ji, Ziyue Hua, Mengzhou Wu, Yuan Cao, Yuzhe Guo, Yu Hao, Linyi Li, Yitao Hu, Tao Xie,
Abstract要約: KernelBandは、カーネル最適化を階層的な多重武装バンディット問題として定式化する新しいフレームワークである。我々はKernelBandが最先端の手法よりも優れており、より少ないトークンで優れた性能を実現し、計算資源の増加とともに飽和を伴わずに一貫した改善を実現していることを示す。
参考スコア（独自算出の注目度）: 15.810081332925584
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: High quality kernels are critical for reducing training and inference costs of Large Language Models (LLMs), yet they traditionally require significant expertise in hardware architecture and software optimization. While recent advances in LLM-based code generation show promise for complex optimization, existing methods struggle with the vast optimization space due to insufficient hardware domain knowledge, failing to effectively balance exploration and exploitation. We present KernelBand, a novel framework that formulates kernel optimization as a hierarchical multi-armed bandit problem, enabling LLM agents to strategically navigate the optimization space by treating kernel selection and optimization strategy application as sequential decision-making processes. Our approach leverages hardware profiling information to identify promising optimization strategies and employs runtime behavior clustering to reduce exploration overhead across kernel candidates. Extensive experiments on TritonBench demonstrate that KernelBand significantly outperforms state-of-the-art methods, achieving superior performance with fewer tokens while exhibiting consistent improvement without saturation as computational resources increase.
Abstract（参考訳）: 高品質のカーネルは、Large Language Models (LLMs) のトレーニングと推論コストを削減するために重要であるが、伝統的にハードウェアアーキテクチャとソフトウェア最適化の専門知識を必要とする。 LLMベースのコード生成の最近の進歩は、複雑な最適化を約束することを示しているが、既存のメソッドはハードウェアドメインの知識が不足し、探索とエクスプロイトの効果的なバランスが取れなかったため、膨大な最適化スペースに苦戦している。本稿では,カーネル選択と最適化戦略を逐次決定プロセスとして扱うことで,LLMエージェントが最適化空間を戦略的にナビゲートすることを可能にする,階層的マルチアームバンディット問題としてカーネル最適化を定式化する新しいフレームワークであるKernelBandを提案する。提案手法では,ハードウェアのプロファイリング情報を利用して,期待できる最適化戦略を特定し,カーネル候補間の探索オーバーヘッドを低減するために,実行時の動作クラスタリングを利用する。 TritonBenchでの大規模な実験により、カーネルバンドは最先端の手法を著しく上回り、より少ないトークンで優れた性能を達成し、計算資源の増加とともに飽和のない一貫した改善を実現した。

関連論文リスト

K-Search: LLM Kernel Generation via Co-Evolving Intrinsic World Model [57.440609834690385]
既存のアプローチでは、進化ループ内の高速コードジェネレータとして、LLM(Large Language Models)を扱います。我々は,共進化的世界モデルによる検索を提案し,この手法に基づいてK-Searchを構築する。 GQA, MLA, MoE カーネルを含む多種多様な複雑なカーネル上で K-Search を評価する。
論文参考訳（メタデータ） (2026-02-22T11:06:22Z)
Towards Automated Kernel Generation in the Era of LLMs [17.69471168609145]
カーネルエンジニアリングは時間がかかり、スケールできないプロセスです。大規模言語モデル(LLM)やエージェントシステムの最近の進歩は、カーネル生成と最適化を自動化する新しい可能性を開いた。フィールドは断片化され続けており、LLM駆動のカーネル生成の体系的な視点が欠如している。
論文参考訳（メタデータ） (2026-01-22T07:53:52Z)
QiMeng-Kernel: Macro-Thinking Micro-Coding Paradigm for LLM-Based High-Performance GPU Kernel Generation [41.53673797546332]
マイクロコーディングは、人間の専門家の段階最適化戦略にインスパイアされた階層的なフレームワークである。最適化戦略を実装の詳細から切り離し、高レベルの戦略と低レベルの実装によって正確性を確保する。レベル1-2と3で100%と70%の精度を達成し、SOTAの汎用とドメインファインチュアリングのLLMよりも50%以上、LLMよりも7.3倍、エキスパート最適化のPyTorch Eagerカーネルより2.2倍のスピードアップを実現している。
論文参考訳（メタデータ） (2025-11-25T09:17:47Z)
STARK: Strategic Team of Agents for Refining Kernels [23.717055490630596]
我々は,GPUカーネル最適化のためのエージェントフレームワークを導入し,マルチエージェント協調による設計空間を探索する。このフレームワークはエキスパートエンジニアのワークフローを模倣し、LCMがハードウェアトレードオフを推論し、プロファイリングフィードバックを取り入れ、カーネルを反復的に洗練することを可能にする。我々は,LLMに基づくカーネル最適化のベンチマークであるKernelBenchに対するアプローチを評価し,ベースラインエージェントよりも大幅に改善したことを示す。
論文参考訳（メタデータ） (2025-10-19T20:41:46Z)
GPU Kernel Scientist: An LLM-Driven Framework for Iterative Kernel Optimization [0.0]
本稿では,アクセルカーネルを反復精製する自動化手法を提案する。本手法は多段階進化過程においてLLMを用いる。このアプローチがAMD MI300ターゲットアーキテクチャの課題をどのようにナビゲートするかを詳述する。
論文参考訳（メタデータ） (2025-06-25T19:59:34Z)
A Survey on Inference Optimization Techniques for Mixture of Experts Models [50.40325411764262]
大規模Mixture of Experts(MoE)モデルは、条件計算によるモデル容量と計算効率の向上を提供する。これらのモデル上で推論をデプロイし実行することは、計算資源、レイテンシ、エネルギー効率において大きな課題を示す。本調査では,システムスタック全体にわたるMoEモデルの最適化手法について分析する。
論文参考訳（メタデータ） (2024-12-18T14:11:15Z)
Blind Super-Resolution via Meta-learning and Markov Chain Monte Carlo Simulation [46.5310645609264]
本稿では,メタラーニングとマルコフ・チェイン・モンテカルロに基づくSISRアプローチを提案する。軽量ネットワークがカーネルジェネレータとして採用され、ランダムガウス分布のMCMCシミュレーションから学習することで最適化される。カーネルジェネレータと画像復元器を最適化するために,メタラーニングに基づく交互最適化手法を提案する。
論文参考訳（メタデータ） (2024-06-13T07:50:15Z)
LLM as a Complementary Optimizer to Gradient Descent: A Case Study in Prompt Tuning [69.95292905263393]
グラデーションベースとハイレベルなLLMは、協調最適化フレームワークを効果的に組み合わせることができることを示す。本稿では,これらを相互に補完し,組み合わせた最適化フレームワークを効果的に連携させることができることを示す。
論文参考訳（メタデータ） (2024-05-30T06:24:14Z)
CompilerDream: Learning a Compiler World Model for General Code Optimization [58.87557583347996]
汎用コード最適化のためのモデルベース強化学習手法であるCompilerDreamを紹介する。最適化パスの固有の特性を正確にシミュレートするコンパイラの世界モデルと、このモデルで訓練されたエージェントから、効率的な最適化戦略を生成する。さまざまなデータセットを網羅し、LLVMのビルトイン最適化や、値予測とエンドツーエンドコード最適化の両方の設定における最先端メソッドを超越している。
論文参考訳（メタデータ） (2024-04-24T09:20:33Z)
Sparsity-Aware Distributed Learning for Gaussian Processes with Linear Multiple Kernel [20.98449975854329]
本稿では,新しいGP線形多重カーネル (LMK) と,ハイパーパラメータを最適化する汎用空間認識分散学習フレームワークを提案する。新たに提案されたグリッドスペクトル混合製品(GSMP)カーネルは,多次元データ用に調整されている。そこで本研究では,Sparse LInear Multiple Kernel Learning (SLIM-KL) フレームワークを提案する。
論文参考訳（メタデータ） (2023-09-15T07:05:33Z)
Learning Performance-Improving Code Edits [107.21538852090208]
本稿では,大規模言語モデル(LLM)を高レベルプログラム最適化に適用するためのフレームワークを提案する。まず、競争力のある77,000以上のC++プログラミングサブミッションペアによる、人間のプログラマによるパフォーマンス改善編集のデータセットをキュレートする。提案手法は,検索をベースとした少数ショットプロンプトとチェーン・オブ・シンクレットを提案し,その微調整には,自己再生に基づく性能条件付き生成と合成データ拡張が含まれる。
論文参考訳（メタデータ） (2023-02-15T18:59:21Z)
An Empirical Evaluation of Zeroth-Order Optimization Methods on AI-driven Molecule Optimization [78.36413169647408]
分子目的を最適化するための様々なZO最適化手法の有効性について検討する。 ZO符号に基づく勾配降下(ZO-signGD)の利点を示す。本稿では,Guurcamol スイートから広く使用されているベンチマークタスクに対して,ZO 最適化手法の有効性を示す。
論文参考訳（メタデータ） (2022-10-27T01:58:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。