論文の概要: Towards Efficient Multi-Scale Deformable Attention on NPU
- arxiv url: http://arxiv.org/abs/2505.14022v1
- Date: Tue, 20 May 2025 07:25:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.854611
- Title: Towards Efficient Multi-Scale Deformable Attention on NPU
- Title(参考訳): NPUにおけるマルチスケール・デフォルマブル・アテンションの実現に向けて
- Authors: Chenghuan Huang, Zhigeng Xu, Chong Sun, Chen Li, Ziyang Ma,
- Abstract要約: Ascend NPUアーキテクチャ上でMSDAのメモリアクセスと計算戦略を再考する共同設計手法を提案する。
我々の実装は、効率的なフォワード計算とバックワード計算の両方をサポートし、トレーニングワークロードに完全に適応し、ハードウェア対応最適化のスイートを組み込んでいます。
- 参考スコア(独自算出の注目度): 4.661513231235483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-scale deformable attention (MSDA) is a flexible and powerful feature extraction mechanism for visual tasks, but its random-access grid sampling strategy poses significant optimization challenges, especially on domain-specific accelerators such as NPUs. In this work, we present a co-design approach that systematically rethinks memory access and computation strategies for MSDA on the Ascend NPU architecture. With this co-design approach, our implementation supports both efficient forward and backward computation, is fully adapted for training workloads, and incorporates a suite of hardware-aware optimizations. Extensive experiments show that our solution achieves up to $5.9\times$ (forward), $8.9\times$ (backward), and $7.3\times$ (end-to-end training) speedup over the grid sample-based baseline, and $1.9\times$, $2.4\times$, and $2.0\times$ acceleration over the latest vendor library, respectively.
- Abstract(参考訳): マルチスケールデフォルマブルアテンション(MSDA)は視覚タスクのための柔軟で強力な特徴抽出機構であるが、ランダムアクセスグリッドサンプリング戦略は特にNPUのようなドメイン固有のアクセラレーターにおいて大きな最適化課題をもたらす。
本研究では,Ascend NPUアーキテクチャ上でMSDAのメモリアクセスと計算戦略を体系的に再考する共同設計手法を提案する。
この共同設計アプローチにより、当社の実装は、効率的なフォワード計算とバックワード計算の両方をサポートし、トレーニングワークロードに完全に適応し、ハードウェア対応最適化のスイートを組み込んでいます。
大規模な実験によると、我々のソリューションは、グリッドサンプルベースのベースライン上で最大5.9\times$(前方)、8.9\times$(後方)、7.3\times$(エンドツーエンドトレーニング)スピードアップ、そして、最新のベンダーライブラリ上でそれぞれ1.9\times$、2.4\times$、2.0\times$アクセラレーションを実現している。
関連論文リスト
- MetaML-Pro: Cross-Stage Design Flow Automation for Efficient Deep Learning Acceleration [8.43012094714496]
本稿では、リソース制約のあるハードウェア上にディープニューラルネットワーク(DNN)をデプロイするための最適化戦略の体系化と自動化のための統一的なフレームワークを提案する。
提案手法は,2つの重要な問題に対処する: (i) カスタム最適化戦略のエンコードと (ii) クロスステージ最適化探索のエナリングである。
論文 参考訳(メタデータ) (2025-02-09T11:02:06Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Hardware-Software Co-optimised Fast and Accurate Deep Reconfigurable Spiking Inference Accelerator Architecture Design Methodology [2.968768532937366]
Spiking Neural Networks(SNN)は、機械学習モデルのエネルギー効率を改善するための有望なアプローチとして登場した。
我々は,ソフトウェア学習深層ニューラルネットワーク(DNN)を高精度スパイキングモデルに移植するハードウェア・ソフトウェア共同最適化戦略を開発した。
論文 参考訳(メタデータ) (2024-10-07T05:04:13Z) - Pruner: A Draft-then-Verify Exploration Mechanism to Accelerate Tensor Program Tuning [11.139231636612479]
プログラムチューニングを高速化するために,Pruner と MoA-Pruner を提案する。
Prunerはスケジュール探索を高速化する"Draft-then-Verify"探索メカニズムである。
MoA-Prunerは、クロスプラットフォームのオンライン無意識に対処するためのMomentumオンライン適応戦略を導入した。
論文 参考訳(メタデータ) (2024-02-04T06:11:12Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Reconfigurable Distributed FPGA Cluster Design for Deep Learning
Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。
提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文 参考訳(メタデータ) (2023-05-24T16:08:55Z) - Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural
Networks on Edge NPUs [74.83613252825754]
スマートエコシステム(smart ecosystems)"は、スタンドアロンではなく、センセーションが同時に行われるように形成されています。
これはデバイス上の推論パラダイムを、エッジにニューラル処理ユニット(NPU)をデプロイする方向にシフトしている。
そこで本研究では,実行時のプリエンプションが到着・終了プロセスによってもたらされる動的性を考慮に入れた,新しい早期終了スケジューリングを提案する。
論文 参考訳(メタデータ) (2022-09-27T15:04:01Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - A Full-stack Accelerator Search Technique for Vision Applications [11.932331630567512]
本稿では,幅広い最適化環境を定義するハードウェアアクセラレーター検索フレームワークを提案する。
FASTは、どんな数やタイプのディープラーニングのワークロードでも使用できる。
単一のワークロードに最適化されたFASTによって生成された設計は、ベストケースではPerf/TDPを6倍改善することができる。
限定的なワークロードサブセットでは、FASTはPerf/TDP 2.85xを平均で改善し、ワークロードセットに最適化された単一の設計に対して2.35xに削減する。
論文 参考訳(メタデータ) (2021-05-26T21:10:20Z) - SmartExchange: Trading Higher-cost Memory Storage/Access for Lower-cost
Computation [97.78417228445883]
We present SmartExchange, a algorithm- hardware co-design framework for energy- efficient inference of Deep Neural Network (DNNs)。
そこで我々は,非零要素がすべてパワー・オブ・ツーである小さな基底行列と大きなスパース係数行列の積として,各重み行列を格納できる,特別に好ましいDNN重み構造を強制する新しいアルゴリズムを開発した。
さらに、SmartExchange強化重量をフル活用し、エネルギー効率と遅延性能の両方を改善するための専用のアクセラレータを設計する。
論文 参考訳(メタデータ) (2020-05-07T12:12:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。