論文の概要: Evolution of Kernels: Automated RISC-V Kernel Optimization with Large Language Models
- arxiv url: http://arxiv.org/abs/2509.14265v1
- Date: Sun, 14 Sep 2025 08:11:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:52.895108
- Title: Evolution of Kernels: Automated RISC-V Kernel Optimization with Large Language Models
- Title(参考訳): カーネルの進化:大規模言語モデルを用いたRISC-Vカーネルの自動最適化
- Authors: Siyuan Chen, Zhichao Lu, Qingfu Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、自動化されたカーネル最適化の約束を示し、包括的な技術ドキュメントと成熟した不足を伴うドメインの成功を示している。
本稿では,LLMベースの進化的プログラム検索フレームワークであるEvolution of Kernels(EoK)について紹介する。
EoKは中央値1.27倍のスピードアップを達成した。
- 参考スコア(独自算出の注目度): 26.985412258634256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated kernel design is critical for overcoming software ecosystem barriers in emerging hardware platforms like RISC-V. While large language models (LLMs) have shown promise for automated kernel optimization, demonstrating success in CUDA domains with comprehensive technical documents and mature codebases, their effectiveness remains unproven for reference-scarce domains like RISC-V. We present Evolution of Kernels (EoK), a novel LLM-based evolutionary program search framework that automates kernel design for domains with limited reference material. EoK mitigates reference scarcity by mining and formalizing reusable optimization ideas (general design principles + actionable thoughts) from established kernel libraries' development histories; it then guides parallel LLM explorations using these ideas, enriched via Retrieval-Augmented Generation (RAG) with RISC-V-specific context, prioritizing historically effective techniques. Empirically, EoK achieves a median 1.27x speedup, surpassing human experts on all 80 evaluated kernel design tasks and improving upon prior LLM-based automated kernel design methods by 20%. These results underscore the viability of incorporating human experience into emerging domains and highlight the immense potential of LLM-based automated kernel optimization.
- Abstract(参考訳): 自動カーネル設計は、RISC-Vのような新興ハードウェアプラットフォームにおけるソフトウェアエコシステムの障壁を克服するために重要である。
大規模言語モデル(LLM)は、カーネルの自動最適化を約束し、包括的な技術ドキュメントと成熟したコードベースを持つCUDAドメインの成功を証明しているが、RISC-Vのような参照スカースドメインでは、その有効性は証明されていない。
本稿では,LLMベースの進化的プログラム検索フレームワークであるEvolution of Kernels(EoK)について紹介する。
EoKは、確立されたカーネルライブラリの開発履歴から再利用可能な最適化のアイデア(一般的な設計原則と実行可能な思想)をマイニングし、形式化することで、参照不足を緩和する。
実証的には、EoKは中央値1.27倍のスピードアップを達成し、評価された80のカーネル設計タスクに関する専門家を抜いて、以前のLLMベースの自動カーネル設計手法を20%改善した。
これらの結果は、人間の経験を新興ドメインに組み込むことの可能性を浮き彫りにして、LLMベースの自動カーネル最適化の潜在可能性を強調している。
関連論文リスト
- K-Search: LLM Kernel Generation via Co-Evolving Intrinsic World Model [57.440609834690385]
既存のアプローチでは、進化ループ内の高速コードジェネレータとして、LLM(Large Language Models)を扱います。
我々は,共進化的世界モデルによる検索を提案し,この手法に基づいてK-Searchを構築する。
GQA, MLA, MoE カーネルを含む多種多様な複雑なカーネル上で K-Search を評価する。
論文 参考訳(メタデータ) (2026-02-22T11:06:22Z) - EmboCoach-Bench: Benchmarking AI Agents on Developing Embodied Robots [68.29056647487519]
Embodied AIは、高忠実度シミュレーションと大規模データ収集によって実現されている。
しかし、このスケーリング能力は、労働集約的な手作業の監視に依存しているため、いまだにボトルネックになっている。
実装ポリシーを自律的に構築するための LLM エージェントの能力を評価するベンチマークである textscEmboCoach-Bench を紹介する。
論文 参考訳(メタデータ) (2026-01-29T11:33:49Z) - Towards Automated Kernel Generation in the Era of LLMs [17.69471168609145]
カーネルエンジニアリングは時間がかかり、スケールできないプロセスです。
大規模言語モデル(LLM)やエージェントシステムの最近の進歩は、カーネル生成と最適化を自動化する新しい可能性を開いた。
フィールドは断片化され続けており、LLM駆動のカーネル生成の体系的な視点が欠如している。
論文 参考訳(メタデータ) (2026-01-22T07:53:52Z) - AscendKernelGen: A Systematic Study of LLM-Based Kernel Generation for Neural Processing Units [39.846358001824996]
我々は,NPUカーネル開発のための世代評価統合フレームワークAscend KernelGenを提案する。
本稿では,実世界のカーネル実装から派生したチェーン・オブ・シント推論を取り入れた高品質なデータセットAscend-CoTを紹介する。
NPU KernelBenchも設計しています。これは、様々な複雑さレベルにわたるコンパイル、正確性、パフォーマンスを評価するための包括的なベンチマークです。
論文 参考訳(メタデータ) (2026-01-12T03:12:58Z) - KernelBand: Boosting LLM-based Kernel Optimization with a Hierarchical and Hardware-aware Multi-armed Bandit [15.810081332925584]
KernelBandは、カーネル最適化を階層的な多重武装バンディット問題として定式化する新しいフレームワークである。
我々はKernelBandが最先端の手法よりも優れており、より少ないトークンで優れた性能を実現し、計算資源の増加とともに飽和を伴わずに一貫した改善を実現していることを示す。
論文 参考訳(メタデータ) (2025-11-24T08:11:50Z) - QiMeng-NeuComBack: Self-Evolving Translation from IR to Assembly Code [52.66657751895655]
大規模言語モデル(LLM)は、ニューラルコンパイルという魅力的な新しいパラダイムを提供する。
本稿では,IR-to-assemblyコンパイル用に設計された新しいベンチマークデータセットであるNeuComBackを紹介する。
LLMの内部的なプロンプト戦略を進化させる自己進化的プロンプト最適化法を提案する。
論文 参考訳(メタデータ) (2025-11-03T03:20:26Z) - STARK: Strategic Team of Agents for Refining Kernels [23.717055490630596]
我々は,GPUカーネル最適化のためのエージェントフレームワークを導入し,マルチエージェント協調による設計空間を探索する。
このフレームワークはエキスパートエンジニアのワークフローを模倣し、LCMがハードウェアトレードオフを推論し、プロファイリングフィードバックを取り入れ、カーネルを反復的に洗練することを可能にする。
我々は,LLMに基づくカーネル最適化のベンチマークであるKernelBenchに対するアプローチを評価し,ベースラインエージェントよりも大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-10-19T20:41:46Z) - Composable OS Kernel Architectures for Autonomous Intelligence [0.0]
本研究では、カーネルを静的リソースマネージャからAI統合プラットフォームに変換する、インテリジェントシステムのための新しいOSカーネルアーキテクチャを提案する。
主なコントリビューションは、LKM(Loadable Kernel Modules)を、カーネル空間における高速な知覚および認知処理のためのAI指向ユニットとして扱うこと、(2)Linuxカーネルを、組み込みのディープラーニング推論、浮動小数点加速度、効率的なMLワークロードのためのリアルタイム適応スケジューリングを備えたAIネイティブ環境に拡張すること、などである。
論文 参考訳(メタデータ) (2025-08-01T13:07:16Z) - GPU Kernel Scientist: An LLM-Driven Framework for Iterative Kernel Optimization [0.0]
本稿では,アクセルカーネルを反復精製する自動化手法を提案する。
本手法は多段階進化過程においてLLMを用いる。
このアプローチがAMD MI300ターゲットアーキテクチャの課題をどのようにナビゲートするかを詳述する。
論文 参考訳(メタデータ) (2025-06-25T19:59:34Z) - Blind Super-Resolution via Meta-learning and Markov Chain Monte Carlo Simulation [46.5310645609264]
本稿では,メタラーニングとマルコフ・チェイン・モンテカルロに基づくSISRアプローチを提案する。
軽量ネットワークがカーネルジェネレータとして採用され、ランダムガウス分布のMCMCシミュレーションから学習することで最適化される。
カーネルジェネレータと画像復元器を最適化するために,メタラーニングに基づく交互最適化手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T07:50:15Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Optimization-Inspired Learning with Architecture Augmentations and
Control Mechanisms for Low-Level Vision [74.9260745577362]
本稿では,GDC(Generative, Discriminative, and Corrective)の原則を集約する,最適化に着想を得た統合学習フレームワークを提案する。
フレキシブルな組み合わせで最適化モデルを効果的に解くために,3つのプロパゲーティブモジュールを構築した。
低レベル視覚タスクにおける実験は、GDCの有効性と適応性を検証する。
論文 参考訳(メタデータ) (2020-12-10T03:24:53Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。