論文の概要: AEG: A Baremetal Framework for AI Acceleration via Direct Hardware Access in Heterogeneous Accelerators
- arxiv url: http://arxiv.org/abs/2604.09565v1
- Date: Sun, 15 Feb 2026 22:12:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.501657
- Title: AEG: A Baremetal Framework for AI Acceleration via Direct Hardware Access in Heterogeneous Accelerators
- Title(参考訳): AEG: 異種加速器の直接ハードウェアアクセスによるAIアクセラレーションのためのベースメタルフレームワーク
- Authors: Hua Jiang, Sayan Mandal, Brandon Kirincich, Govind Varadarajan,
- Abstract要約: 本稿では、異種加速器上での高性能機械学習(ML)推論を可能にするために、ハードウェアに依存しない統一型ベアメタルランタイムアーキテクチャを提案する。
TinyMLのような既存のエッジデプロイフレームワークは、しばしば不要な複雑さとパフォーマンスボトルネックをもたらすリアルタイムオペレーティングシステム(RTOS)に依存している。
- 参考スコア(独自算出の注目度): 3.3455113324921606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a unified, hardware-independent baremetal runtime architecture designed to enable high-performance machine learning (ML) inference on heterogeneous accelerators, such as AI Engine (AIE) arrays, without the overhead of an underlying real-time or general-purpose operating system. Existing edge-deployment frameworks, such as TinyML, often rely on real-time operating systems (RTOS), which introduce unnecessary complexity and performance bottlenecks. To address this, our solution fundamentally decouples the runtime from hardware specifics by flattening complex control logic into linear, executable Runtime Control Blocks (RCBs). This "Control as Data" paradigm allows high-level models, including Adaptive Data Flow (ADF) graphs, to be executed by a generic engine through a minimal Runtime Hardware Abstraction Layer (RHAL). We further integrate Runtime Platform Management (RTPM) to handle system-level orchestration (including a lightweight network stack) and a Runtime In-Memory File System (RIMFS) to manage data in OS-free environments. We demonstrate the framework's efficacy with a ResNet-18 image classification implementation. Experimental results show 9.2$\times$ higher compute efficiency (throughput per AIE tile) compared to Linux-based Vitis AI deployment, 3--7$\times$ reduction in data movement overhead, and near-zero latency variance (CV~$=0.03\%$). The system achieves 68.78\% Top-1 accuracy on ImageNet using only 28 AIE tiles compared to Vitis AI's 304 tiles, validating both the efficiency and correctness of this unified bare-metal architecture.
- Abstract(参考訳): 本稿では,AIエンジン(AIE)アレイなどの異種加速器上での高性能機械学習(ML)推論を実現するために,基盤となるリアルタイムや汎用オペレーティングシステムのオーバーヘッドを伴わずに,ハードウェアに依存しない統一型ベアメタルランタイムアーキテクチャを提案する。
TinyMLのような既存のエッジデプロイフレームワークは、しばしば不要な複雑さとパフォーマンスボトルネックをもたらすリアルタイムオペレーティングシステム(RTOS)に依存している。
これを解決するため、当社のソリューションは、複雑な制御ロジックを線形で実行可能な実行時制御ブロック(RCB)にフラット化することにより、ランタイムをハードウェア仕様から根本的に分離する。
この"Control as Data"パラダイムは、Adaptive Data Flow (ADF)グラフを含む高レベルのモデルを、最小限のRuntime Hardware Abstraction Layer (RHAL)を通じてジェネリックエンジンで実行することを可能にする。
さらに,RTPM(Runtime Platform Management)を統合し,システムレベルのオーケストレーション(軽量ネットワークスタックを含む)とRIMFS(Runtime In-Memory File System)を統合し,OSフリー環境でのデータ管理を行う。
本稿では,ResNet-18画像分類実装によるフレームワークの有効性を示す。
実験結果は、LinuxベースのVitis AIデプロイメントと比較して9.2$\times$高い計算効率(AIEタイル当たりのスループット)、3.7$\times$データ移動オーバーヘッドの削減、およびほぼゼロのレイテンシ分散(CV~0$=0.03\%$)を示している。
このシステムは、Vitis AIの304個のタイルと比較して28個のAIEタイルのみを使用して、ImageNet上で68.78\%のTop-1精度を実現し、この統一されたベアメタルアーキテクチャの効率性と正確性を検証した。
関連論文リスト
- AdaFuse: Accelerating Dynamic Adapter Inference via Token-Level Pre-Gating and Fused Kernel Optimization [84.25316984309725]
動的スパース構造とパラメータ効率のよいアダプタ(例えばLoRA)の統合は、大規模言語モデル(LLM)を拡張するための強力な技術である。
計算負荷は最小限に抑えられるが、計算のレイテンシが急上昇し、復号速度が2.5倍以上遅くなる。
AdaFuseはアルゴリズムと基盤となるハードウェアシステムとの緊密な協調設計に基づいて構築されたフレームワークで、効率的な動的アダプタ実行を実現する。
論文 参考訳(メタデータ) (2026-03-12T12:46:42Z) - AIConfigurator: Lightning-Fast Configuration Optimization for Multi-Framework LLM Serving [16.664502126572856]
AIConfiguratorは、Large Language Model(LLM)推論のための統一されたパフォーマンスモデリングシステムである。
GPUベースのプロファイリングを必要とせずに、迅速なフレームワークベースの構成検索を可能にする。
これは、高密度モデルのパフォーマンスを最大40%向上させる優れたサービス構成を特定する。
論文 参考訳(メタデータ) (2026-01-09T20:03:57Z) - RollArt: Scaling Agentic RL Training via Disaggregated Infrastructure [49.88201789074532]
エージェント強化学習(RL)は、大規模言語モデル(LLM)が自律的な意思決定と長期計画を行うことを可能にする。
分散インフラストラクチャ上でマルチタスクエージェントRLのスループットを最大化する分散システムであるRollArcを提案する。
論文 参考訳(メタデータ) (2025-12-27T11:14:23Z) - AIE4ML: An End-to-End Framework for Compiling Neural Networks for the Next Generation of AMD AI Engines [3.4381029715186844]
AIE4MLはAIモデルをAIE-ML生成デバイスをターゲットにした最適化ファームウェアに自動的に変換するフレームワークである。
シングルカーネルベースラインと比較して98.6%の効率を実現しています。
実世界のモデルトポロジを評価することで、AIE4MLはマイクロ秒レイテンシ制約下でGPUクラスのスループットを提供することを示した。
論文 参考訳(メタデータ) (2025-12-17T20:13:05Z) - An LLVM-Based Optimization Pipeline for SPDZ [0.0]
我々はSPDZプロトコルのための概念実証LLVMベースの最適化パイプラインを実装した。
フロントエンドは軽量なプライバシアノテーションを備えたCのサブセットを受け入れ、LLVM IRに格下げします。
我々のバックエンドは、最適化されたIR上でデータフローと制御フローの分析を行い、ノンブロッキングランタイムスケジューラを駆動します。
論文 参考訳(メタデータ) (2025-12-11T20:53:35Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - From Loop Nests to Silicon: Mapping AI Workloads onto AMD NPUs with MLIR-AIR [6.2957456904504525]
汎用コンパイラは並列性、局所性、同期性を抽象化し、現代の空間アーキテクチャにおけるそれらの有効性を制限する。
MLIR上に構築された新しいオープンソースのコンパイラスタックであるMLIR-AIRを紹介する。
LLaMA2モデルの行列乗算とマルチヘッドアテンションブロックの2つのケーススタディを通してMLIR-AIRの機能を示す。
論文 参考訳(メタデータ) (2025-10-16T16:49:05Z) - Scalable Engine and the Performance of Different LLM Models in a SLURM based HPC architecture [3.746889836344766]
本研究は、SLURM(Simple Linux Utility for Resource Management)に基づく高性能コンピューティングアーキテクチャについて詳述する。
動的リソーススケジューリングとコンテナ化のシームレスな統合は、CPU、GPU、メモリをマルチノードクラスタで効率的に管理するために活用されている。
その結果,大規模HPCインフラストラクチャ上でのLLM推論は,より効率的で応答性が高く,耐故障性に優れた。
論文 参考訳(メタデータ) (2025-08-25T09:11:27Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。