Fugu-MT 論文翻訳(概要): Library Liberation: Competitive Performance Matmul Through Compiler-composed Nanokernels

論文の概要: Library Liberation: Competitive Performance Matmul Through Compiler-composed Nanokernels

arxiv url: http://arxiv.org/abs/2511.13764v1
Date: Fri, 14 Nov 2025 14:32:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-19 16:23:52.694952
Title: Library Liberation: Competitive Performance Matmul Through Compiler-composed Nanokernels
Title（参考訳）: ライブラリ解放: コンパイラで構成したナノカーネルによる競合パフォーマンスマトゥル
Authors: Arun Thangamani, Md Asghar Ahmad Shahid, Adam Siemieniuk, Rolf Morel, Renato Golin, Alexander Heinecke,
Abstract要約: 本稿では,スケーラブルで高性能なマイクロカーネルを自動生成するコンパイル方式を提案する。本手法は,ベクトルおよびタイルベースのCPU命令をサポートするMLIRベースのコンパイラで実装する。実験の結果、生成したナノカーネルは生産品質が高く、最先端のマイクロカーネルライブラリと競合することがわかった。
参考スコア（独自算出の注目度）: 37.00431889602245
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapidly evolving landscape of AI and machine learning workloads has widened the gap between high-level domain operations and efficient hardware utilization. Achieving near-peak performance still demands deep hardware expertise-experts either handcraft target-specific kernels (e.g., DeepSeek) or rely on specialized libraries (e.g., CUTLASS)-both of which add complexity and limit scalability for most ML practitioners. This paper introduces a compilation scheme that automatically generates scalable, high-performance microkernels by leveraging the MLIR dialects to bridge domain-level operations and processor capabilities. Our approach removes dependence on low-level libraries by enabling the compiler to auto-generate near-optimal code directly. At its core is a mechanism for composing nanokernels from low-level IR constructs with near-optimal register utilization, forming efficient microkernels tailored to each target. We implement this technique in an MLIR-based compiler supporting both vector and tile based CPU instructions. Experiments show that the generated nanokernels are of production-quality, and competitive with state-of-the-art microkernel libraries.
Abstract（参考訳）: AIと機械学習のワークロードの急速な進化により、ハイレベルなドメイン操作と効率的なハードウェア利用のギャップが拡大した。ニアピークパフォーマンスを達成するには、依然として、手動のターゲット固有のカーネル(例:DeepSeek)、あるいは特別なライブラリ(例:CUTLASS)に依存する、ハードウェアの専門知識を要する。本稿では、MLIR方言を利用して、ドメインレベルの演算とプロセッサ機能をブリッジすることで、スケーラブルで高性能なマイクロカーネルを自動的に生成するコンパイル方式を提案する。提案手法は,コンパイラが最適に近いコードを直接自動生成できるようにすることにより,低レベルライブラリへの依存を解消する。その中核は、準最適レジスタ利用による低レベルIR構成物からナノカーネルを構成する機構であり、各ターゲットに合わせた効率的なマイクロカーネルを形成する。本手法は,ベクトルおよびタイルベースのCPU命令をサポートするMLIRベースのコンパイラで実装する。実験の結果、生成したナノカーネルは生産品質が高く、最先端のマイクロカーネルライブラリと競合することがわかった。

関連論文リスト

CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation [51.72529978689561]
Agentは、カーネルの専門知識を3つのコンポーネントで開発する大規模なエージェント強化学習システムである。 AgentはKernelBench上で、トーチコンパイルよりも100%、100%、92%高速なレートを提供する。
論文参考訳（メタデータ） (2026-02-27T18:58:05Z)
Hexagon-MLIR: An AI Compilation Stack For Qualcomm's Neural Processing Units (NPUs) [3.8043062351078585]
Hexagon-MLIRは、Qualcomm Hexagon Neural Processing Unit (NPU)をターゲットにしたオープンソースのコンパイルスタックである。トリトンカーネルとPyTorchモデルを下げるための統一的なサポートを提供する。
論文参考訳（メタデータ） (2026-02-23T12:12:39Z)
Tackling the Matrix Multiplication Micro-kernel Generation with Exo [0.5517652814152908]
新しいハードウェアごとに専用のマイクロカーネルを生成するためのステップバイステップの手順を提案する。ハードウェアターゲットは、その命令の簡潔なライブラリベースの記述によって完全に指定されるため、生成したコードの移植性も向上する。
論文参考訳（メタデータ） (2023-10-26T14:09:57Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
Enabling Retargetable Optimizing Compilers for Quantum Accelerators via a Multi-Level Intermediate Representation [78.8942067357231]
我々は、最適化され、再ターゲット可能で、事前コンパイルが可能なマルチレベル量子古典中間表現(IR)を提案する。ゲートベースのOpenQASM 3言語全体をサポートし、共通量子プログラミングパターンのカスタム拡張と構文の改善を提供します。私たちの研究は、通常のPythonのアプローチよりも1000倍高速で、スタンドアロンの量子言語コンパイラよりも5～10倍高速なコンパイル時間を実現しています。
論文参考訳（メタデータ） (2021-09-01T17:29:47Z)
Source Code Classification for Energy Efficiency in Parallel Ultra Low-Power Microcontrollers [5.4352987210173955]
本稿では,ソフトウェアツールチェーンの知性を向上し,最新のアーキテクチャを最大限に活用することを目的とする。低電力の並列組込みアーキテクチャの場合、これは、例えばコア数の観点から構成を見つけることを意味し、最小限のエネルギー消費につながる。実験によれば、ソースコード上で機械学習モデルを使用して最適なエネルギースケーリング構成を自動的に選択することは可能であり、エネルギー最小化のための自動システム構成のコンテキストで使用できる可能性がある。
論文参考訳（メタデータ） (2020-12-12T15:12:03Z)
PolyDL: Polyhedral Optimizations for Creation of High Performance DL primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文参考訳（メタデータ） (2020-06-02T06:44:09Z)
PolyScientist: Automatic Loop Transformations Combined with Microkernels for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文参考訳（メタデータ） (2020-02-06T08:02:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。