論文の概要: Hexagon-MLIR: An AI Compilation Stack For Qualcomm's Neural Processing Units (NPUs)
- arxiv url: http://arxiv.org/abs/2602.19762v1
- Date: Mon, 23 Feb 2026 12:12:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.801613
- Title: Hexagon-MLIR: An AI Compilation Stack For Qualcomm's Neural Processing Units (NPUs)
- Title(参考訳): Hexagon-MLIR:QualcommのNeural Processing Units(NPU)用のAIコンパイルスタック
- Authors: Mohammed Javed Absar, Muthu Baskaran, Abhikrant Sharma, Abhilash Bhandari, Ankit Aggarwal, Arun Rangasamy, Dibyendu Das, Fateme Hosseini, Franck Slama, Iulian Brumar, Jyotsna Verma, Krishnaprasad Bindumadhavan, Mitesh Kothari, Mohit Gupta, Ravishankar Kolachana, Richard Lethin, Samarth Narang, Sanjay Motilal Ladwa, Shalini Jain, Snigdha Suresh Dalvi, Tasmia Rahman, Venkat Rasagna Reddy Komatireddy, Vivek Vasudevbhai Pandya, Xiyue Shi, Zachary Zipper,
- Abstract要約: Hexagon-MLIRは、Qualcomm Hexagon Neural Processing Unit (NPU)をターゲットにしたオープンソースのコンパイルスタックである。
トリトンカーネルとPyTorchモデルを下げるための統一的なサポートを提供する。
- 参考スコア(独自算出の注目度): 3.8043062351078585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present Hexagon-MLIR,an open-source compilation stack that targets Qualcomm Hexagon Neural Processing Unit (NPU) and provides unified support for lowering Triton kernels and PyTorch models . Built using the MLIR framework, our compiler applies a structured sequence of passes to exploit NPU architectural features to accelerate AI workloads. It enables faster deployment of new Triton kernels (hand-written or subgraphs from PyTorch 2.0), for our target by providing automated compilation from kernel to binary. By ingesting Triton kernels, we generate mega-kernels that maximize data locality in the NPU's Tightly Coupled Memory (TCM), reducing the bandwidth bottlenecks inherent in library-based approaches. This initiative complements our commercial toolchains by providing developers with an open-source MLIR-based compilation stack that gives them a path to advance AI compilation capabilities through a more flexible approach. Hexagon-MLIR is a work-in-progress, and we are continuing to add many more optimizations and capabilities in this effort.
- Abstract(参考訳): 本稿では,Qualcomm Hexagon Neural Processing Unit (NPU)をターゲットにしたオープンソースのコンパイルスタックであるHexagon-MLIRについて述べる。
MLIRフレームワークを使用して構築された我々のコンパイラは、構造化されたパスシーケンスを適用して、AIワークロードを高速化するためにNPUアーキテクチャ機能を活用する。
これにより、カーネルからバイナリへの自動コンパイルを提供することで、新たなTritonカーネル(PyTorch 2.0から手書きまたはサブグラフ)の迅速なデプロイが可能になります。
トリトンカーネルを取り込み,NPUのTightly Coupled Memory(TCM)におけるデータ局所性を最大化するメガカーネルを生成する。
このイニシアチブは、オープンソースのMLIRベースのコンパイルスタックを開発者に提供することで、より柔軟なアプローチでAIコンパイル能力を前進させる手段を提供することで、当社の商用ツールチェーンを補完します。
Hexagon-MLIRはプログレッシブで、この取り組みに多くの最適化と機能を追加し続けています。
関連論文リスト
- AKG kernel Agent: A Multi-Agent Framework for Cross-Platform Kernel Synthesis [13.239454996851771]
現代のAIモデルは高性能な計算カーネルを必要とする。
Akgカーネルエージェント(AI駆動のカーネルジェネレータ)は複数のドメイン固有言語をサポートするように設計されている。
システムのモジュール設計により、バックエンドDSLとハードウェアターゲットの迅速な統合が可能になる。
システムはPyTorch Eagerベースライン上で平均1.46ドルのスピードアップを達成する。
論文 参考訳(メタデータ) (2025-12-29T12:42:05Z) - Library Liberation: Competitive Performance Matmul Through Compiler-composed Nanokernels [37.00431889602245]
本稿では,スケーラブルで高性能なマイクロカーネルを自動生成するコンパイル方式を提案する。
本手法は,ベクトルおよびタイルベースのCPU命令をサポートするMLIRベースのコンパイラで実装する。
実験の結果、生成したナノカーネルは生産品質が高く、最先端のマイクロカーネルライブラリと競合することがわかった。
論文 参考訳(メタデータ) (2025-11-14T14:32:28Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - eIQ Neutron: Redefining Edge-AI Inference with Integrated NPU and Compiler Innovations [4.776283807742058]
eIQ中性子効率NPUは商用フラッグシップMPUに統合される。
我々のソリューションは、標準AIベンチマークにおけるTOPSとメモリリソースの同等で平均1.8倍(4倍ピーク)のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-09-17T19:45:51Z) - Towards a high-performance AI compiler with upstream MLIR [34.89141656581549]
本研究では,オープンソースのコンパイラパスを用いたコンパイルフローを提案し,忍者パフォーマンスを実現するためのフレームワークを構築する。
この流れを,Packing と PyTorch の Linalg-on-Tensor における入射IR を用いた概念実証 MLIR プロジェクトで実証する。
論文 参考訳(メタデータ) (2024-04-15T10:35:50Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Enabling Retargetable Optimizing Compilers for Quantum Accelerators via
a Multi-Level Intermediate Representation [78.8942067357231]
我々は、最適化され、再ターゲット可能で、事前コンパイルが可能なマルチレベル量子古典中間表現(IR)を提案する。
ゲートベースのOpenQASM 3言語全体をサポートし、共通量子プログラミングパターンのカスタム拡張と構文の改善を提供します。
私たちの研究は、通常のPythonのアプローチよりも1000倍高速で、スタンドアロンの量子言語コンパイラよりも5~10倍高速なコンパイル時間を実現しています。
論文 参考訳(メタデータ) (2021-09-01T17:29:47Z) - Bring Your Own Codegen to Deep Learning Compiler [8.87545486816377]
本稿では,独自のコード生成ツールの開発にのみ集中できるオープンソースフレームワークを提案する。
当社のフレームワークは、柔軟で使いやすいインターフェースをユーザーに提供し、モデルを「最高の」プロセッサで実行できるセグメントに分割します。
論文 参考訳(メタデータ) (2021-05-03T17:22:25Z) - PolyDL: Polyhedral Optimizations for Creation of High Performance DL
primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。
我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。
また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-02T06:44:09Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。