論文の概要: MetaML-Pro: Cross-Stage Design Flow Automation for Efficient Deep Learning Acceleration
- arxiv url: http://arxiv.org/abs/2502.05850v1
- Date: Sun, 09 Feb 2025 11:02:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:29:38.300398
- Title: MetaML-Pro: Cross-Stage Design Flow Automation for Efficient Deep Learning Acceleration
- Title(参考訳): MetaML-Pro: 効率的なディープラーニング高速化のためのクロスステージ設計フロー自動化
- Authors: Zhiqiang Que, Jose G. F. Coutinho, Ce Guo, Hongxiang Fan, Wayne Luk,
- Abstract要約: 本稿では、リソース制約のあるハードウェア上にディープニューラルネットワーク(DNN)をデプロイするための最適化戦略の体系化と自動化のための統一的なフレームワークを提案する。
我々の新しいアプローチは、クロスステージなコ最適化と最適化検索の2つの主要な問題に対処する。
実験の結果、一部のネットワークでは92%のDSPと89%のLUT使用率低下が確認された。
- 参考スコア(独自算出の注目度): 8.43012094714496
- License:
- Abstract: This paper presents a unified framework for codifying and automating optimization strategies to efficiently deploy deep neural networks (DNNs) on resource-constrained hardware, such as FPGAs, while maintaining high performance, accuracy, and resource efficiency. Deploying DNNs on such platforms involves addressing the significant challenge of balancing performance, resource usage (e.g., DSPs and LUTs), and inference accuracy, which often requires extensive manual effort and domain expertise. Our novel approach addresses two key issues: cross-stage co-optimization and optimization search. By seamlessly integrating programmatic DNN optimization techniques with high-level synthesis (HLS)-based metaprogramming and leveraging advanced design space exploration (DSE) strategies like Bayesian optimization, the framework automates both top-down and bottom-up design flows, reducing the need for manual intervention and domain expertise. The proposed framework introduces customizable optimization, transformation, and control blocks to enhance DNN accelerator performance and resource efficiency. Experimental results demonstrate up to a 92\% DSP and 89\% LUT usage reduction for select networks, while preserving accuracy, along with a 15.6-fold reduction in optimization time compared to grid search. These results underscore the novelty and potential of the proposed framework for automated, resource-efficient DNN accelerator designs.
- Abstract(参考訳): 本稿では,FPGAなどのリソース制約のあるハードウェアにディープニューラルネットワーク(DNN)を効率よく展開するための最適化戦略の体系化と自動化のための統一的なフレームワークを提案する。
このようなプラットフォームにDNNをデプロイするには、パフォーマンスとリソース使用量のバランス(DSPやLUTなど)、推論の正確性といった重要な課題に対処する必要がある。
我々の新しいアプローチは、クロスステージなコ最適化と最適化検索の2つの主要な問題に対処する。
プログラム的なDNN最適化手法をHLS(High-level synthesis)ベースのメタプログラミングとシームレスに統合し、ベイズ最適化のような高度な設計空間探索(DSE)戦略を活用することにより、このフレームワークはトップダウンとボトムアップの両方の設計フローを自動化し、手動の介入やドメインの専門知識の必要を減らす。
提案フレームワークは、DNNアクセラレータの性能とリソース効率を向上させるために、カスタマイズ可能な最適化、変換、制御ブロックを導入している。
実験結果は、選択されたネットワークに対して92 % DSP と89 % LUT の使用率の低下を示し、精度を保ちながら、グリッドサーチと比較して15.6 倍の最適化時間を短縮した。
これらの結果は、資源効率の高いDNNアクセラレーター設計のための提案されたフレームワークの新規性と可能性を裏付けるものである。
関連論文リスト
- Synergistic Development of Perovskite Memristors and Algorithms for Robust Analog Computing [53.77822620185878]
本稿では,ペロブスカイト・メムリスタの製作を同時に最適化し,ロバストなアナログDNNを開発するための相乗的手法を提案する。
BO誘導ノイズインジェクションを利用したトレーニング戦略であるBayesMultiを開発した。
我々の統合されたアプローチは、より深くより広いネットワークでのアナログコンピューティングの使用を可能にし、最大100倍の改善を実現します。
論文 参考訳(メタデータ) (2024-12-03T19:20:08Z) - Hardware-Software Co-optimised Fast and Accurate Deep Reconfigurable Spiking Inference Accelerator Architecture Design Methodology [2.968768532937366]
Spiking Neural Networks(SNN)は、機械学習モデルのエネルギー効率を改善するための有望なアプローチとして登場した。
我々は,ソフトウェア学習深層ニューラルネットワーク(DNN)を高精度スパイキングモデルに移植するハードウェア・ソフトウェア共同最適化戦略を開発した。
論文 参考訳(メタデータ) (2024-10-07T05:04:13Z) - Hardware-Aware Neural Dropout Search for Reliable Uncertainty Prediction on FPGA [11.123116470454079]
この分野では、ドロップアウトベースのベイズニューラルネットワーク(BayesNN)が顕著であり、確実な不確実性推定を提供する。
既存のドロップアウトベースのベイズNNは、通常、異なる層にまたがる均一なドロップアウト設計を採用しており、亜最適性能をもたらす。
本稿では,ByesNNとFPGA上でのハードウェア実装の両方を自動最適化するニューラルドロップアウト検索フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-23T19:33:19Z) - DNN Partitioning, Task Offloading, and Resource Allocation in Dynamic Vehicular Networks: A Lyapunov-Guided Diffusion-Based Reinforcement Learning Approach [49.56404236394601]
本稿では,Vehicular Edge Computingにおける共同DNNパーティショニング,タスクオフロード,リソース割り当ての問題を定式化する。
我々の目標は、時間とともにシステムの安定性を保証しながら、DNNベースのタスク完了時間を最小化することである。
拡散モデルの革新的利用を取り入れたマルチエージェント拡散に基づく深層強化学習(MAD2RL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-11T06:31:03Z) - MetaML: Automating Customizable Cross-Stage Design-Flow for Deep
Learning Acceleration [5.2487252195308844]
本稿では,ディープニューラルネットワーク(DNN)ハードウェアアクセラレータのための新しい最適化フレームワークを提案する。
設計フローアーキテクチャ構築のための新しい最適化と変換タスクを導入する。
以上の結果から,DSP使用率92%,LUT使用率89%の大幅な削減が得られた。
論文 参考訳(メタデータ) (2023-06-14T21:06:07Z) - DECN: Evolution Inspired Deep Convolution Network for Black-box Optimization [9.878660285945728]
本稿では、自動EAの概念を紹介します。 自動EAは、関心の問題における構造を利用して、自動更新ルールを生成する。
手動で設計したEAから手動の介入なしに自動化されたEAへの移行を実現するために、深層進化畳み込みネットワーク(DECN)を設計する。
論文 参考訳(メタデータ) (2023-04-19T12:14:01Z) - Teal: Learning-Accelerated Optimization of WAN Traffic Engineering [68.7863363109948]
本稿では,GPUの並列処理能力を活用してTE制御を高速化する学習型TEアルゴリズムTealを提案する。
問題スケールの削減と学習のトラクタビリティ向上のために,Tealはマルチエージェント強化学習(RL)アルゴリズムを用いて,各トラフィック要求を独立に割り当てる。
他のTE加速方式と比較して、Tealは需要を6~32%増やし、197~625倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2022-10-25T04:46:30Z) - Automatic Mapping of the Best-Suited DNN Pruning Schemes for Real-Time
Mobile Acceleration [71.80326738527734]
本稿では,汎用的,きめ細かな構造化プルーニング手法とコンパイラの最適化を提案する。
提案手法は,より微細な構造化プルーニング手法とともに,最先端のDNN最適化フレームワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-22T23:53:14Z) - Deep Learning-based Resource Allocation For Device-to-Device
Communication [66.74874646973593]
デバイス間通信(D2D)を用いたマルチチャネルセルシステムにおいて,リソース割り当ての最適化のためのフレームワークを提案する。
任意のチャネル条件に対する最適な資源配分戦略をディープニューラルネットワーク(DNN)モデルにより近似する深層学習(DL)フレームワークを提案する。
シミュレーションの結果,提案手法のリアルタイム性能を低速で実現できることが確認された。
論文 参考訳(メタデータ) (2020-11-25T14:19:23Z) - Automated Design Space Exploration for optimised Deployment of DNN on
Arm Cortex-A CPUs [13.628734116014819]
組み込みデバイスにおけるディープラーニングは、ディープニューラルネットワーク(DNN)のデプロイを最適化する多くの方法の開発を促している。
テストし、グローバルに最適化されたソリューションを得るには、アプローチの空間が大きすぎるため、クロスレベル最適化に関する研究が不足している。
我々は、Arm Cortex-A CPUプラットフォーム上での最先端DNNの一連の結果を示し、最大4倍の性能向上とメモリの2倍以上の削減を実現した。
論文 参考訳(メタデータ) (2020-06-09T11:00:06Z) - Self-Directed Online Machine Learning for Topology Optimization [58.920693413667216]
自己指向型オンライン学習最適化は、ディープニューラルネットワーク(DNN)と有限要素法(FEM)計算を統合している。
本アルゴリズムは, コンプライアンスの最小化, 流体構造最適化, 伝熱促進, トラス最適化の4種類の問題によって検証された。
その結果, 直接使用法と比較して計算時間を2~5桁削減し, 実験で検証した全ての最先端アルゴリズムより優れていた。
論文 参考訳(メタデータ) (2020-02-04T20:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。