論文の概要: K-Search: LLM Kernel Generation via Co-Evolving Intrinsic World Model
- arxiv url: http://arxiv.org/abs/2602.19128v2
- Date: Thu, 26 Feb 2026 10:37:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 14:31:23.730451
- Title: K-Search: LLM Kernel Generation via Co-Evolving Intrinsic World Model
- Title(参考訳): K-Search: 固有世界モデルによるLLMカーネル生成
- Authors: Shiyi Cao, Ziming Mao, Joseph E. Gonzalez, Ion Stoica,
- Abstract要約: 既存のアプローチでは、進化ループ内の高速コードジェネレータとして、LLM(Large Language Models)を扱います。
我々は,共進化的世界モデルによる検索を提案し,この手法に基づいてK-Searchを構築する。
GQA, MLA, MoE カーネルを含む多種多様な複雑なカーネル上で K-Search を評価する。
- 参考スコア(独自算出の注目度): 57.440609834690385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimizing GPU kernels is critical for efficient modern machine learning systems yet remains challenging due to the complex interplay of design factors and rapid hardware evolution. Existing automated approaches typically treat Large Language Models (LLMs) merely as stochastic code generators within heuristic-guided evolutionary loops. These methods often struggle with complex kernels requiring coordinated, multi-step structural transformations, as they lack explicit planning capabilities and frequently discard promising strategies due to inefficient or incorrect intermediate implementations. To address this, we propose Search via Co-Evolving World Model and build K-Search based on this method. By replacing static search heuristics with a co-evolving world model, our framework leverages LLMs' prior domain knowledge to guide the search, actively exploring the optimization space. This approach explicitly decouples high-level algorithmic planning from low-level program instantiation, enabling the system to navigate non-monotonic optimization paths while remaining resilient to temporary implementation defects. We evaluate K-Search on diverse, complex kernels from FlashInfer, including GQA, MLA, and MoE kernels. Our results show that K-Search significantly outperforms state-of-the-art evolutionary search methods, achieving an average 2.10x improvement and up to a 14.3x gain on complex MoE kernels. On the GPUMode TriMul task, K-Search achieves state-of-the-art performance on H100, reaching 1030us and surpassing both prior evolution and human-designed solutions.
- Abstract(参考訳): GPUカーネルの最適化は、効率的な現代的な機械学習システムにとって重要であるが、設計要因の複雑な相互作用と迅速なハードウェア進化のため、依然として難しい。
既存の自動化アプローチは通常、ヒューリスティック誘導進化ループ内の確率的なコード生成器として、LLM(Large Language Models)を扱う。
これらの手法はしばしば、協調された多段階構造変換を必要とする複雑なカーネルと競合し、明示的な計画能力が欠如し、非効率または不正な中間実装による有望な戦略を頻繁に破棄する。
そこで我々は,共同進化型世界モデルによる検索を提案し,この手法に基づいてK-Searchを構築する。
静的な探索ヒューリスティックを共に進化する世界モデルに置き換えることで、LLMの事前知識を活用して探索をガイドし、最適化空間を積極的に探索する。
このアプローチは、低レベルのプログラムインスタンス化から高レベルのアルゴリズムプランニングを明示的に分離し、一時的な実装欠陥に耐性を維持しながら、非単調な最適化パスをナビゲートすることを可能にする。
我々は、GQA、MLA、MoEカーネルを含む、FlashInferから多種多様な複雑なカーネル上でK-Searchを評価する。
以上の結果から,K-Searchは最先端の進化的探索法を著しく上回り,複雑なMoEカーネルでは平均2.10倍,最大14.3倍向上した。
GPUMode TriMulタスクでは、K-SearchはH100の最先端のパフォーマンスを達成し、1030usに達し、以前の進化と人間設計のソリューションを上回ります。
関連論文リスト
- Towards Automated Kernel Generation in the Era of LLMs [17.69471168609145]
カーネルエンジニアリングは時間がかかり、スケールできないプロセスです。
大規模言語モデル(LLM)やエージェントシステムの最近の進歩は、カーネル生成と最適化を自動化する新しい可能性を開いた。
フィールドは断片化され続けており、LLM駆動のカーネル生成の体系的な視点が欠如している。
論文 参考訳(メタデータ) (2026-01-22T07:53:52Z) - Large Language Model-Powered Evolutionary Code Optimization on a Phylogenetic Tree [17.08113692977552]
PhyloEvolveは、GPU指向のアルゴリズム最適化をIn-Context Reinforcement Learning問題として再設計するシステムである。
本稿では,アルゴリズムの変種間の継承,分岐,組換えを捉える系統木表現を提案する。
我々は、PDEソルバ、多様体学習、スペクトルグラフアルゴリズムを含む科学計算処理のPhyloEvolveを評価する。
論文 参考訳(メタデータ) (2026-01-20T22:32:52Z) - PACEvolve: Enabling Long-Horizon Progress-Aware Consistent Evolution [64.15555230987222]
PACEvolveはエージェントのコンテキストと検索ダイナミクスを堅牢に管理するように設計されたフレームワークである。
PACEvolveは、一貫性のある長期自己改善のための体系的なパスを提供する。
論文 参考訳(メタデータ) (2026-01-15T18:25:23Z) - Experience-Guided Reflective Co-Evolution of Prompts and Heuristics for Automatic Algorithm Design [124.54166764570972]
組合せ最適化問題は伝統的に手作りのアルゴリズムで取り組まれている。
最近の進歩は、大規模言語モデルによる自動設計の可能性を強調している。
本稿では,自動アルゴリズム設計のためのPmpt and Heuristics (EvoPH) を用いた経験進化的リフレクティブ・ガイドを提案する。
論文 参考訳(メタデータ) (2025-09-29T09:24:09Z) - CALM: Co-evolution of Algorithms and Language Model for Automatic Heuristic Design [11.639825726501659]
大規模言語モデル(LLM)は、従来のコストのごく一部で自律的にハイパフォーマンスを発見できる。
本稿では,言語指導と数値指導を組み合わせたハイブリッドフレームワークを提案する。
本手法は,様々な最適化タスクにおいて,SOTA(State-of-the-art)ベースラインを上回っている。
論文 参考訳(メタデータ) (2025-05-18T07:48:47Z) - HKNAS: Classification of Hyperspectral Imagery Based on Hyper Kernel
Neural Architecture Search [104.45426861115972]
設計したハイパーカーネルを利用して,構造パラメータを直接生成することを提案する。
我々は1次元または3次元の畳み込みを伴う画素レベルの分類と画像レベルの分類を別々に行う3種類のネットワークを得る。
6つの公開データセットに関する一連の実験は、提案手法が最先端の結果を得ることを示した。
論文 参考訳(メタデータ) (2023-04-23T17:27:40Z) - Ranking Cost: Building An Efficient and Scalable Circuit Routing Planner
with Evolution-Based Optimization [49.207538634692916]
そこで我々は、効率よくトレーニング可能なルータを形成するための新しい回路ルーティングアルゴリズム、Randing Costを提案する。
提案手法では,A*ルータが適切な経路を見つけるのに役立つコストマップと呼ばれる新しい変数群を導入する。
我々のアルゴリズムはエンドツーエンドで訓練されており、人工データや人間の実演は一切使用しない。
論文 参考訳(メタデータ) (2021-10-08T07:22:45Z) - AlphaGAN: Fully Differentiable Architecture Search for Generative
Adversarial Networks [15.740179244963116]
GAN (Generative Adversarial Networks) はミニマックスゲーム問題として定式化され、ジェネレータは差別者に対する対戦学習によって実際のデータ分布にアプローチしようとする。
本研究は,ネットワークアーキテクチャの観点からのモデル学習を促進することを目的として,GANに自動アーキテクチャ探索の最近の進歩を取り入れた。
我々は,αGANと呼ばれる,生成的敵ネットワークのための,完全に差別化可能な検索フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-16T13:27:30Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。