論文の概要: Comprehensive Design Space Exploration for Tensorized Neural Network Hardware Accelerators
- arxiv url: http://arxiv.org/abs/2511.17971v1
- Date: Sat, 22 Nov 2025 08:18:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.557765
- Title: Comprehensive Design Space Exploration for Tensorized Neural Network Hardware Accelerators
- Title(参考訳): テンソル型ニューラルネットワークハードウェア加速器の総合設計空間探索
- Authors: Jinsong Zhang, Minghe Li, Jiayi Tian, Jinming Lu, Zheng Zhang,
- Abstract要約: 高次テンソル分解は、エッジ展開のためのコンパクトなディープニューラルネットワークを得るために広く採用されている。
このようなハードウェアを意識しない設計は、テンソル化モデルの潜在的な遅延とエネルギーの利点を曖昧にすることが多い。
テンソル化ニューラルネットワークの効率的なトレーニングと推論のために,これらの次元を統一設計空間内に統一する共同探索フレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.97184801369339
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-order tensor decomposition has been widely adopted to obtain compact deep neural networks for edge deployment. However, existing studies focus primarily on its algorithmic advantages such as accuracy and compression ratio-while overlooking the hardware deployment efficiency. Such hardware-unaware designs often obscure the potential latency and energy benefits of tensorized models. Although several works attempt to reduce computational cost by optimizing the contraction sequence based on the number of multiply-accumulate operations, they typically neglect the underlying hardware characteristics, resulting in suboptimal real-world performance. We observe that the contraction path, hardware architecture, and dataflow mapping are tightly coupled and must be optimized jointly within a unified design space to maximize deployment efficiency on real devices. To this end, we propose a co-exploration framework that unifies these dimensions within a unified design space for efficient training and inference of tensorized neural networks on edge platforms. The framework formulates a latency oriented search objective and solves it via a global latency-driven exploration across the unified design space to achieve end-to-end model efficiency. The optimized configurations are implemented on a configurable FPGA kernel, achieving up to 4 and 3.85 lower inference and training latency compared with the dense baseline.
- Abstract(参考訳): 高次テンソル分解は、エッジ展開のためのコンパクトなディープニューラルネットワークを得るために広く採用されている。
しかし、既存の研究では、ハードウェアの配置効率を見越して精度や圧縮比などのアルゴリズム上の利点に主に焦点を当てている。
このようなハードウェアを意識しない設計は、テンソル化モデルの潜在的な遅延とエネルギーの利点を曖昧にすることが多い。
いくつかの研究は、乗算累積演算数に基づいて収縮列を最適化することで計算コストを削減しようとするが、一般にハードウェア特性を無視し、その結果、準最適実世界の性能をもたらす。
コンダクションパス、ハードウェアアーキテクチャ、データフローマッピングは密結合であり、実際のデバイスへのデプロイメント効率を最大化するために、統一設計空間内で共同で最適化されなければならない。
この目的のために、エッジプラットフォーム上でのテンソル化ニューラルネットワークの効率的なトレーニングと推論のために、統一設計空間内でこれらの次元を統一する共同探索フレームワークを提案する。
このフレームワークは、レイテンシ指向の探索目標を定式化し、統一デザイン空間を横断するグローバルなレイテンシ駆動探索を通じて解決し、エンドツーエンドモデルの効率を達成する。
最適化された構成は構成可能なFPGAカーネル上に実装され、密度の高いベースラインと比較して最大4と3.85の推論とトレーニングのレイテンシを実現している。
関連論文リスト
- Coflex: Enhancing HW-NAS with Sparse Gaussian Processes for Efficient and Scalable DNN Accelerator Design [4.489116569191255]
ハードウェア・アウェア・ニューラルサーチ(HW-NAS)は、ニューラルネットワークの性能とハードウェアエネルギー効率を自動的に最適化する効率的なアプローチである。
我々は,Sparse Gaussian Process(SGP)と多目的ベイズ最適化を統合した新しいHW-NASフレームワークであるCoflexを提案する。
論文 参考訳(メタデータ) (2025-07-31T11:16:46Z) - Accelerating Linear Recurrent Neural Networks for the Edge with Unstructured Sparsity [39.483346492111515]
線形リカレントニューラルネットワークは、推論中に一定のメモリ使用量と時間毎の時間を含む強力な長距離シーケンスモデリングを可能にする。
非構造化空間は、互換性のあるハードウェアプラットフォームによって加速されるときに、計算とメモリの要求を大幅に削減できる魅力的なソリューションを提供する。
非常に疎い線形RNNは、高密度ベースラインよりも高い効率と性能のトレードオフを一貫して達成している。
論文 参考訳(メタデータ) (2025-02-03T13:09:21Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - Latency-aware Spatial-wise Dynamic Networks [33.88843632160247]
深層ネットワークのための遅延認識型空間的動的ネットワーク(LASNet)を提案する。
LASNetは、新しい遅延予測モデルのガイダンスに基づき、粗粒度空間適応推論を行う。
画像分類,オブジェクト検出,インスタンスセグメンテーションの実験により,提案手法はディープネットワークの実用的な推論効率を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2022-10-12T14:09:27Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - An Image Enhancing Pattern-based Sparsity for Real-time Inference on
Mobile Devices [58.62801151916888]
パターンと接続性を組み合わせた新しい空間空間,すなわちパターンベースの空間空間を導入し,高度に正確かつハードウェアに親しみやすいものにした。
新たなパターンベースの空間性に対する我々のアプローチは,モバイルプラットフォーム上での高効率DNN実行のためのコンパイラ最適化に自然に適合する。
論文 参考訳(メタデータ) (2020-01-20T16:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。