論文の概要: AIE4ML: An End-to-End Framework for Compiling Neural Networks for the Next Generation of AMD AI Engines
- arxiv url: http://arxiv.org/abs/2512.15946v1
- Date: Wed, 17 Dec 2025 20:13:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.813568
- Title: AIE4ML: An End-to-End Framework for Compiling Neural Networks for the Next Generation of AMD AI Engines
- Title(参考訳): AIE4ML: 次世代AMDAIエンジンのためのニューラルネットワークをコンパイルするためのエンドツーエンドフレームワーク
- Authors: Dimitrios Danopoulos, Enrico Lupi, Chang Sun, Sebastian Dittmeier, Michael Kagan, Vladimir Loncar, Maurizio Pierini,
- Abstract要約: AIE4MLはAIモデルをAIE-ML生成デバイスをターゲットにした最適化ファームウェアに自動的に変換するフレームワークである。
シングルカーネルベースラインと比較して98.6%の効率を実現しています。
実世界のモデルトポロジを評価することで、AIE4MLはマイクロ秒レイテンシ制約下でGPUクラスのスループットを提供することを示した。
- 参考スコア(独自算出の注目度): 3.4381029715186844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient AI inference on AMD's Versal AI Engine (AIE) is challenging due to tightly coupled VLIW execution, explicit datapaths, and local memory management. Prior work focused on first-generation AIE kernel optimizations, without tackling full neural network execution across the 2D array. In this work, we present AIE4ML, the first comprehensive framework for converting AI models automatically into optimized firmware targeting the AIE-ML generation devices, also with forward compatibility for the newer AIE-MLv2 architecture. At the single-kernel level, we attain performance close to the architectural peak. At the graph and system levels, we provide a structured parallelization method that can scale across the 2D AIE-ML fabric and exploit its dedicated memory tiles to stay entirely on-chip throughout the model execution. As a demonstration, we designed a generalized and highly efficient linear-layer implementation with intrinsic support for fused bias addition and ReLU activation. Also, as our framework necessitates the generation of multi-layer implementations, our approach systematically derives deterministic, compact, and topology-optimized placements tailored to the physical 2D grid of the device through a novel graph placement and search algorithm. Finally, the framework seamlessly accepts quantized models imported from high-level tools such as hls4ml or PyTorch while preserving bit-exactness. In layer scaling benchmarks, we achieve up to 98.6% efficiency relative to the single-kernel baseline, utilizing 296 of 304 AIE tiles (97.4%) of the device with entirely on-chip data movement. With evaluations across real-world model topologies, we demonstrate that AIE4ML delivers GPU-class throughput under microsecond latency constraints, making it a practical companion for ultra-low-latency environments such as trigger systems in particle physics experiments.
- Abstract(参考訳): AMDのVersal AI Engine(AIE)上の効率的なAI推論は、緊密に結合されたVLIWの実行、明示的なデータパス、ローカルメモリ管理のために難しい。
以前の作業では、2Dアレイ全体にわたる完全なニューラルネットワークの実行に対処することなく、第1世代のAIEカーネル最適化に重点を置いていた。
本稿では,AIモデルを自動的に最適化したファームウェアに変換する最初の包括的なフレームワークであるAIE4MLと,新しいAIE-MLv2アーキテクチャの前方互換性を示す。
シングルカーネルレベルでは、アーキテクチャのピークに近いパフォーマンスを実現しています。
グラフとシステムレベルでは、2D AIE-MLファブリックをまたいで拡張し、その専用メモリタイルを利用してモデル実行中完全にオンチップを維持することができる構造化並列化手法を提供する。
実演として,融合バイアス付加とReLU活性化を本質的にサポートした一般化された高効率線形層実装を設計した。
また,本フレームワークは多層実装の創出を必要とするため,新しいグラフ配置と探索アルゴリズムにより,デバイスの物理2Dグリッドに合わせた決定論的,コンパクト,位相最適化配置を体系的に導出する。
最後に、このフレームワークは、ビット実行性を維持しながら、hls4mlやPyTorchのような高レベルのツールからインポートされた量子化モデルをシームレスに受け入れる。
層スケーリングベンチマークでは、全チップのデータ移動を伴うデバイスの304個のAIEタイル(97.4%)のうち296個を利用して、シングルカーネルベースラインと比較して98.6%の効率を達成する。
実世界のモデルトポロジを評価することで、AIE4MLはマイクロ秒レイテンシ制約下でGPUクラスのスループットを提供することを示した。
関連論文リスト
- Tackling the Dynamicity in a Production LLM Serving System with SOTA Optimizations via Hybrid Prefill/Decode/Verify Scheduling on Efficient Meta-kernels [12.77187564450236]
本稿では,多機能なAscendネイティブ,エンドツーエンド生産型大規模言語モデル(LLM)サービスシステムであるXY-Serveを紹介する。
中心となる考え方は、計算をきめ細かいメタプリミティブに分解することで、ワークロードの変動を円滑にする抽象化メカニズムである。
GEMMでは,動的形状変化に適応する仮想パディング方式を導入し,高効率な固定タイルサイズGEMMプリミティブを用いた。
論文 参考訳(メタデータ) (2024-12-24T02:27:44Z) - Energy-Aware FPGA Implementation of Spiking Neural Network with LIF Neurons [0.5243460995467893]
スパイキングニューラルネットワーク(SNN)は、TinyMLの最先端ソリューションとして際立っている。
本稿では,第1次Leaky Integrate-and-Fire(LIF)ニューロンモデルに基づく新しいSNNアーキテクチャを提案する。
ハードウェアフレンドリーなLIF設計も提案され、Xilinx Artix-7 FPGA上で実装されている。
論文 参考訳(メタデータ) (2024-11-03T16:42:10Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Automatic Generation of Fast and Accurate Performance Models for Deep Neural Network Accelerators [33.18173790144853]
本稿では,Deep Neural Networks (DNN) のレイテンシを正確に推定する高速性能モデルのための自動生成手法を提案する。
我々は、Gemmini、UltraTrail、Plastinine由来、パラメータ化可能なシストリックアレイなどの代表的DNNアクセラレータをモデル化した。
ループカーネルを154回繰り返して評価し,419億命令のパフォーマンスを推定し,大幅な高速化を実現した。
論文 参考訳(メタデータ) (2024-09-13T07:27:55Z) - An Open-Source ML-Based Full-Stack Optimization Framework for Machine
Learning Accelerators [3.9343070428357225]
本稿では,ハードウェアアクセラレーション型ディープニューラルネットワーク(DNN)と非DNN機械学習アクセラレータのための物理設計駆動型学習ベース予測フレームワークを提案する。
提案手法は,2つのディープラーニングアクセラレータプラットフォームのASIC実装に対して,平均7%以下の予測誤差でバックエンドPPAとシステムメトリクスを連続的に予測することを示す。
論文 参考訳(メタデータ) (2023-08-23T13:16:31Z) - FPGA-based AI Smart NICs for Scalable Distributed AI Training Systems [62.20308752994373]
我々は、フィールドプログラマブルゲートアレイ(FPGA)を用いた分散AI訓練システムのための新しいスマートネットワークインタフェースカード(NIC)を提案する。
提案するFPGAベースのAIスマートNICは,従来のNICを用いたベースラインシステムと比較して,6ノードで1.6倍,32ノードで2.5倍の性能向上が期待できる。
論文 参考訳(メタデータ) (2022-04-22T21:57:00Z) - Scaled-Time-Attention Robust Edge Network [2.4417312983418014]
本稿では,貯水池型ニューラルネットワークの遅延ループバージョンに基づいて,ニューラルネットワークの新たなファミリーを構築するための体系的なアプローチについて述べる。
結果として得られたアーキテクチャは、STARE(Scaled-Time-Attention Robust Edge)ネットワークと呼ばれ、超次元空間と非乗算演算を利用する。
我々は、STAREがパフォーマンスを改善し、実装の複雑さを低減した様々なアプリケーションに適用可能であることを実証した。
論文 参考訳(メタデータ) (2021-07-09T21:24:49Z) - ASFD: Automatic and Scalable Face Detector [129.82350993748258]
ASFD(Automatic and Scalable Face Detector)を提案する。
ASFDはニューラルアーキテクチャ検索技術の組み合わせと新たな損失設計に基づいている。
ASFD-D0は120FPS以上で動作し、MobilenetはVGA解像度の画像を撮影しています。
論文 参考訳(メタデータ) (2020-03-25T06:00:47Z) - DDPNAS: Efficient Neural Architecture Search via Dynamic Distribution
Pruning [135.27931587381596]
DDPNASと呼ばれる効率よく統一されたNASフレームワークを提案する。
検索空間は動的に切断され,その分布はいくつかのエポック毎に更新される。
提案した効率的なネットワーク生成手法により,与えられた制約に対する最適なニューラルネットワークアーキテクチャを直接取得する。
論文 参考訳(メタデータ) (2019-05-28T06:35:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。