論文の概要: An Open-Source HW-SW Co-Development Framework Enabling Efficient Multi-Accelerator Systems
- arxiv url: http://arxiv.org/abs/2508.14582v1
- Date: Wed, 20 Aug 2025 10:04:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.421567
- Title: An Open-Source HW-SW Co-Development Framework Enabling Efficient Multi-Accelerator Systems
- Title(参考訳): 効率的なマルチアクセラレータシステムを実現するオープンソースHW-SW共同開発フレームワーク
- Authors: Ryan Albert Antonio, Joren Dumoulin, Xiaoling Yi, Josse Van Delm, Yunhao Deng, Guilherme Paim, Marian Verhelst,
- Abstract要約: 多様なAIワークロードに対する効率的なソリューションとして、不均一なアクセラレータ中心の計算クラスタが登場している。
本稿では,オープンソースのHW-SWフレームワークであるSNAXについて述べる。
- 参考スコア(独自算出の注目度): 2.869405001718283
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Heterogeneous accelerator-centric compute clusters are emerging as efficient solutions for diverse AI workloads. However, current integration strategies often compromise data movement efficiency and encounter compatibility issues in hardware and software. This prevents a unified approach that balances performance and ease of use. To this end, we present SNAX, an open-source integrated HW-SW framework enabling efficient multi-accelerator platforms through a novel hybrid-coupling scheme, consisting of loosely coupled asynchronous control and tightly coupled data access. SNAX brings reusable hardware modules designed to enhance compute accelerator utilization, and its customizable MLIR-based compiler to automate key system management tasks, jointly enabling rapid development and deployment of customized multi-accelerator compute clusters. Through extensive experimentation, we demonstrate SNAX's efficiency and flexibility in a low-power heterogeneous SoC. Accelerators can easily be integrated and programmed to achieve > 10x improvement in neural network performance compared to other accelerator systems while maintaining accelerator utilization of > 90% in full system operation.
- Abstract(参考訳): 多様なAIワークロードに対する効率的なソリューションとして、不均一なアクセラレータ中心の計算クラスタが登場している。
しかし、現在の統合戦略は、ハードウェアとソフトウェアにおけるデータ移動効率と互換性の問題にしばしば妥協する。
これにより、パフォーマンスと使いやすさのバランスをとる統一的なアプローチが防止される。
そこで本稿では,疎結合型非同期制御と密結合型データアクセスからなるハイブリッド結合方式により,効率的なマルチアクセラレータプラットフォームを実現するオープンソース統合HW-SWフレームワークであるSNAXを提案する。
SNAXは、計算アクセラレータ利用を向上させるために設計された再利用可能なハードウェアモジュールと、主要なシステム管理タスクを自動化するカスタマイズ可能なMLIRベースのコンパイラを提供し、カスタマイズされたマルチアクセラレータ計算クラスタの迅速な開発とデプロイを可能にする。
低出力異種SoCにおけるSNAXの効率性と柔軟性について実験を行った。
アクセラレータは、他のアクセラレーションシステムと比較して10倍のニューラルネットワーク性能向上を達成するために、統合およびプログラムが容易であり、フルシステム操作における90%以上のアクセラレーション利用を維持している。
関連論文リスト
- KAITIAN: A Unified Communication Framework for Enabling Efficient Collaboration Across Heterogeneous Accelerators in Embodied AI Systems [5.241889216655924]
KAITIANは、AIワークロードのための新しい分散通信フレームワークである。
ベンダー最適化されたグループ内効率のための通信ライブラリとグループ間相互運用性のための汎用通信プロトコルを統合する。
ベースラインの均質システムと比較してトレーニング時間を最大42%短縮することができる。
論文 参考訳(メタデータ) (2025-05-15T11:29:43Z) - Exploring the Potential of Wireless-enabled Multi-Chip AI Accelerators [2.2305608711864555]
無線配線は、平均で10%、最大で20%のスピードアップにつながる可能性がある。
有線配線と無線配線の負荷分散の重要性を強調した。
論文 参考訳(メタデータ) (2025-01-29T11:00:09Z) - Cluster-Based Multi-Agent Task Scheduling for Space-Air-Ground Integrated Networks [60.085771314013044]
低高度経済は、コミュニケーションやセンシングなどの分野で発展する大きな可能性を秘めている。
本稿では,SAGINにおけるマルチUAV協調タスクスケジューリング問題に対処するため,クラスタリングに基づく多エージェントDeep Deterministic Policy Gradient (CMADDPG)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:17:33Z) - OpenGeMM: A High-Utilization GeMM Accelerator Generator with Lightweight RISC-V Control and Tight Memory Coupling [2.869405001718283]
リソース制約のある極端エッジデバイスにデプロイする際、ディープニューラルネットワーク(DNN)は重大な課題に直面している。
オープンソースアクセラレーションプラットフォームOpenGeMMを提案する。
論文 参考訳(メタデータ) (2024-11-14T15:58:46Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Communication-Control Codesign for Large-Scale Wireless Networked Control Systems [80.30532872347668]
無線ネットワーク制御システム(Wireless Networked Control Systems, WNCS)は、ドローン群や自律ロボットなどのアプリケーションにおいて柔軟な制御を可能にする産業用4.0に必須である。
本稿では,マルチ状態マルコフブロックフェーディングチャネル上で限られた無線リソースを共有するセンサやアクチュエータを用いて,複数の制御ループ間の相関ダイナミクスを捕捉する実用的WNCSモデルを提案する。
本研究では,ハイブリッドな動作空間を効率的に処理し,通信制御の相関関係を捉え,疎域変数や浮動小数点制御の入力に拘わらず堅牢なトレーニングを確実にするDeep Reinforcement Learning (DRL)アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-10-15T06:28:21Z) - MARS: Exploiting Multi-Level Parallelism for DNN Workloads on Adaptive
Multi-Accelerator Systems [27.490645446510033]
本稿では,並列性を最大化するために,計算対応アクセラレータ選択と通信対応シャーディング戦略の適用が可能な新しいマッピングフレームワークを提案する。
その結果,MARS はベースラインと比較して DNN のワークロードの平均で32.2% のレイテンシ削減を達成でき,またヘテロジニアスモデルでは59.4% のレイテンシ削減を実現している。
論文 参考訳(メタデータ) (2023-07-23T05:50:37Z) - Reconfigurable Distributed FPGA Cluster Design for Deep Learning
Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。
提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文 参考訳(メタデータ) (2023-05-24T16:08:55Z) - On Fast Simulation of Dynamical System with Neural Vector Enhanced
Numerical Solver [59.13397937903832]
ニューラルベクトル(NeurVec)と呼ばれる深層学習に基づく補正手法を提案する。
NeurVecは、統合エラーを補償し、シミュレーションでより大きなタイムステップサイズを可能にする。
様々な複雑な力学系ベンチマークの実験により、NeurVecは顕著な一般化能力を示すことが示された。
論文 参考訳(メタデータ) (2022-08-07T09:02:18Z) - FPGA-based AI Smart NICs for Scalable Distributed AI Training Systems [62.20308752994373]
我々は、フィールドプログラマブルゲートアレイ(FPGA)を用いた分散AI訓練システムのための新しいスマートネットワークインタフェースカード(NIC)を提案する。
提案するFPGAベースのAIスマートNICは,従来のNICを用いたベースラインシステムと比較して,6ノードで1.6倍,32ノードで2.5倍の性能向上が期待できる。
論文 参考訳(メタデータ) (2022-04-22T21:57:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。