論文の概要: Archtree: on-the-fly tree-structured exploration for latency-aware
pruning of deep neural networks
- arxiv url: http://arxiv.org/abs/2311.10549v1
- Date: Fri, 17 Nov 2023 14:24:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-20 14:33:49.275595
- Title: Archtree: on-the-fly tree-structured exploration for latency-aware
pruning of deep neural networks
- Title(参考訳): archtree: ディープニューラルネットワークのレイテンシアウェアpruningのためのオンザフライツリー構造探索
- Authors: R\'emi Ouazan Reboul, Edouard Yvinec, Arnaud Dapogny, Kevin Bailly
- Abstract要約: Archtreeはディープニューラルネットワーク(DNN)の遅延駆動型構造化プルーニングの新しい手法
ターゲットハードウェア上でのオン・ザ・フライの遅延推定を伴い、特定の予算よりも近いレイテンシを考慮に入れます。
実験結果から,Archtreeは従来の最先端手法と比較して,遅延予算の適合性を向上しつつ,オリジナルのモデルの精度を向上することが示された。
- 参考スコア(独自算出の注目度): 20.564198591600647
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks (DNNs) have become ubiquitous in addressing a number of
problems, particularly in computer vision. However, DNN inference is
computationally intensive, which can be prohibitive e.g. when considering edge
devices. To solve this problem, a popular solution is DNN pruning, and more so
structured pruning, where coherent computational blocks (e.g. channels for
convolutional networks) are removed: as an exhaustive search of the space of
pruned sub-models is intractable in practice, channels are typically removed
iteratively based on an importance estimation heuristic. Recently, promising
latency-aware pruning methods were proposed, where channels are removed until
the network reaches a target budget of wall-clock latency pre-emptively
estimated on specific hardware. In this paper, we present Archtree, a novel
method for latency-driven structured pruning of DNNs. Archtree explores
multiple candidate pruned sub-models in parallel in a tree-like fashion,
allowing for a better exploration of the search space. Furthermore, it involves
on-the-fly latency estimation on the target hardware, accounting for closer
latencies as compared to the specified budget. Empirical results on several DNN
architectures and target hardware show that Archtree better preserves the
original model accuracy while better fitting the latency budget as compared to
existing state-of-the-art methods.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、特にコンピュータビジョンにおいて、多くの問題に対処するために広く普及している。
しかし、DNN推論は計算集約的であり、例えばエッジデバイスを考える際には禁忌である。
この問題を解決するために、一般的な解決策はdnn pruningであり、より構造化されたpruningであり、コヒーレントな計算ブロック(例えば畳み込みネットワークのチャネル)は削除される。
近年,有望な遅延対応プルーニング手法が提案され,特定のハードウェア上で事前に推定されたウォールクロック遅延の目標予算に達するまでチャネルを除去する。
本稿では,DNNの遅延駆動型構造化プルーニング手法であるArchtreeを提案する。
archtreeは複数のprunedサブモデルを木のような方法で並列に探索し、検索空間をよりよく探索する。
さらに、ターゲットハードウェア上でのオン・ザ・フライ遅延推定を伴い、特定の予算よりも近いレイテンシを考慮に入れている。
いくつかのdnnアーキテクチャとターゲットハードウェアにおける経験的な結果から、archtreeは、既存の最先端のメソッドに比べてレイテンシの予算に適合しながら、元のモデルの精度を保っていることが分かる。
関連論文リスト
- Flexible Channel Dimensions for Differentiable Architecture Search [50.33956216274694]
本稿では,効率的な動的チャネル割当アルゴリズムを用いた新しい微分可能なニューラルアーキテクチャ探索法を提案する。
提案するフレームワークは,タスク精度と推論遅延において,従来の手法と等価なDNNアーキテクチャを見つけることができることを示す。
論文 参考訳(メタデータ) (2023-06-13T15:21:38Z) - FSCNN: A Fast Sparse Convolution Neural Network Inference System [31.474696818171953]
畳み込みニューラルネットワーク(CNN)は目覚ましい成功を収めているが、通常は高い計算コストと多くの冗長な重みパラメータが伴う。
FLOPを小さくするためには、粗粒の粗さを導入して隠蔽構造全体を除去する構造刈りが一般的である。
圧縮されたCNNの微細な粒度を利用した効率的な畳み込みニューラルネットワーク推論システムを提案する。
論文 参考訳(メタデータ) (2022-12-17T06:44:58Z) - MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。
ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:08:20Z) - Two-Timescale End-to-End Learning for Channel Acquisition and Hybrid
Precoding [94.40747235081466]
本研究では,ミリ波(mmWave)大規模マルチインプット多重出力(MIMO)システムのためのエンドツーエンドの深層学習に基づくジョイントトランスシーバ設計アルゴリズムを提案する。
我々は受信したパイロットを受信機でフィードバックビットにマッピングし、さらに送信機でハイブリッドプリコーダにフィードバックビットをマッピングするDNNアーキテクチャを開発した。
論文 参考訳(メタデータ) (2021-10-22T20:49:02Z) - Architecture Aware Latency Constrained Sparse Neural Networks [35.50683537052815]
本稿では,CNNモデルの作成と高速化を目的として,遅延制約付きスパースフレームワークを設計する。
また,効率的な計算のための新しいスパース畳み込みアルゴリズムを提案する。
我々のシステム・アルゴリズムの共同設計フレームワークは、リソース制約のあるモバイルデバイス上でのネットワークの精度とレイテンシのフロンティアをはるかに向上させることができる。
論文 参考訳(メタデータ) (2021-09-01T03:41:31Z) - Deterministic Iteratively Built KD-Tree with KNN Search for Exact
Applications [2.7325238096808318]
K-Nearest Neighbors (KNN)サーチは、ロボット工学や自動運転車に応用された人工知能ソフトウェアの基本アルゴリズムである。
二分木と同様に、kd-treesはオンラインアプリケーションに新しいデータが付加され、木が再構築されない限り、検索性能が急速に低下する可能性があるため、不均衡になる。
クエリ結果の正確さを損なうことなく、ツリー再構築の回数を減らす「インターバルkd-treesのフォレスト」を提示する。
論文 参考訳(メタデータ) (2021-06-07T17:09:22Z) - Spectral Pruning for Recurrent Neural Networks [0.0]
リカレントニューラルネットワーク(RNN)のような、リカレントアーキテクチャを備えたニューラルネットワークのプルーニング技術は、エッジコンピューティングデバイスへの応用に強く望まれている。
本稿では、「スペクトルプルーニング」にインスパイアされたRNNに対する適切なプルーニングアルゴリズムを提案し、圧縮されたRNNに対する一般化誤差境界を提供する。
論文 参考訳(メタデータ) (2021-05-23T00:30:59Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - Depthwise Non-local Module for Fast Salient Object Detection Using a
Single Thread [136.2224792151324]
本稿では,高速な物体検出のための新しいディープラーニングアルゴリズムを提案する。
提案アルゴリズムは,1つのCPUスレッドと同時に,競合精度と高い推論効率を実現する。
論文 参考訳(メタデータ) (2020-01-22T15:23:48Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。