論文の概要: Realizing Unaligned Block-wise Pruning for DNN Acceleration on Mobile Devices
- arxiv url: http://arxiv.org/abs/2407.19644v1
- Date: Mon, 29 Jul 2024 01:59:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 15:25:50.032680
- Title: Realizing Unaligned Block-wise Pruning for DNN Acceleration on Mobile Devices
- Title(参考訳): モバイルデバイス上でのDNN高速化のための非整合ブロックワイドプルーニングの実現
- Authors: Hayun Lee, Dongkun Shin,
- Abstract要約: ブロックワイドプルーニングは、スピードアップゲインに対する低い精度のドロップトレードオフのため、有望である。
Unaligned block pruning (UBP) は、任意の位置にブロックを選択できるようにすることによってこの問題に対処する。
ブロック拡張と分割という,擬似最適かつ高速なブロック選択アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 1.6114012813668932
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the recent proliferation of on-device AI, there is an increasing need to run computationally intensive DNNs directly on mobile devices. However, the limited computing and memory resources of these devices necessitate effective pruning techniques. Block-wise pruning is promising due to its low accuracy drop tradeoff for speedup gains, but it requires block positions to be aligned with block size, hindering optimal position selection to minimize model accuracy drop. Unaligned block pruning (UBP) addresses this by allowing blocks to be selected at arbitrary positions, yet its practical use is limited by a time-consuming optimal block selection algorithm and lack of efficient inference kernels. In this paper, we propose a pseudo-optimal yet fast block selection algorithm called Block Expansion and Division (BED), which can be integrated into an iterative model training process. Additionally, we introduce an efficient inference kernel implementation for mobile devices, enabling a UBP-based model to achieve similar latency to a DNN model compressed by aligned block pruning. We demonstrate the superiority of our techniques on a real mobile phone with MobileNet and ResNet models.
- Abstract(参考訳): 近年のオンデバイスAIの普及に伴い、モバイルデバイス上で計算集約的なDNNを直接実行する必要性が高まっている。
しかし、これらのデバイスの限られた計算資源とメモリ資源は、効果的なプルーニング技術を必要とする。
ブロックワイドプルーニングは、スピードアップゲインに対する低い精度のドロップトレードオフのため有望であるが、ブロック位置をブロックサイズに合わせる必要があるため、モデルの精度低下を最小限に抑えるために最適な位置選択を妨げている。
Unaligned block pruning (UBP) はブロックを任意の位置に選択可能にすることでこの問題に対処するが、その実用性は最適なブロック選択アルゴリズムと効率的な推論カーネルの欠如によって制限される。
本稿では,Block Expansion and Division (BED)と呼ばれる,擬似最適かつ高速なブロック選択アルゴリズムを提案する。
さらに,モバイル端末向けの効率的な推論カーネル実装を導入し,協調ブロックプルーニングにより圧縮されたDNNモデルと同様のレイテンシを実現する。
我々は,MobileNet と ResNet モデルを用いた実携帯電話において,我々の手法の優位性を実証する。
関連論文リスト
- BitQ: Tailoring Block Floating Point Precision for Improved DNN Efficiency on Resource-Constrained Devices [14.536949788395837]
ブロック浮動小数点(BFP)量子化は、メモリと計算負荷を減らすための代表的な圧縮手法の1つである。
組込みプラットフォーム上でのDNN推論の最良のBFP実装のためのBFPベースのビット幅対応解析モデルフレームワーク(BitQ')を開発した。
論文 参考訳(メタデータ) (2024-09-25T17:03:49Z) - Resource Management for Low-latency Cooperative Fine-tuning of Foundation Models at the Network Edge [35.40849522296486]
大規模ファウンデーションモデル(FoMos)は、人間のような知性を実現することができる。
FoMosは微調整技術により、特定の下流タスクに適応する必要がある。
デバイスエッジ協調微調整パラダイムにおける多デバイス連携を提唱する。
論文 参考訳(メタデータ) (2024-07-13T12:47:14Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - LegoDNN: Block-grained Scaling of Deep Neural Networks for Mobile Vision [27.74191483754982]
モバイルビジョンシステムでマルチDNNワークロードを実行するための,ブロック粒度のスケーリングソリューションであるLegoDNNを提案する。
LegoDNNは、少数の共通ブロックを抽出し、トレーニングするだけで、短いモデルのトレーニング時間を保証します。
LegoDNNはトレーニング時間を増やすことなく,モデルサイズの1,296倍から279,936倍のオプションを提供する。
論文 参考訳(メタデータ) (2021-12-18T06:04:03Z) - Architecture Aware Latency Constrained Sparse Neural Networks [35.50683537052815]
本稿では,CNNモデルの作成と高速化を目的として,遅延制約付きスパースフレームワークを設計する。
また,効率的な計算のための新しいスパース畳み込みアルゴリズムを提案する。
我々のシステム・アルゴリズムの共同設計フレームワークは、リソース制約のあるモバイルデバイス上でのネットワークの精度とレイテンシのフロンティアをはるかに向上させることができる。
論文 参考訳(メタデータ) (2021-09-01T03:41:31Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z) - Towards Real-Time DNN Inference on Mobile Platforms with Model Pruning
and Compiler Optimization [56.3111706960878]
ハイエンドなモバイルプラットフォームは、幅広いDeep Neural Network (DNN)アプリケーションのための主要なコンピューティングデバイスとして機能する。
これらのデバイス上の制約付き計算とストレージリソースは、リアルタイムの推論実行に重大な課題をもたらす。
モバイル端末上でのDNN実行を高速化するハードウェアフレンドリーな構造化モデルプルーニングとコンパイラ最適化手法を提案する。
論文 参考訳(メタデータ) (2020-04-22T03:18:23Z) - A Privacy-Preserving-Oriented DNN Pruning and Mobile Acceleration
Framework [56.57225686288006]
モバイルエッジデバイスの限られたストレージとコンピューティング能力を満たすために、ディープニューラルネットワーク(DNN)の軽量プルーニングが提案されている。
従来のプルーニング手法は主に、ユーザデータのプライバシを考慮せずに、モデルのサイズを減らしたり、パフォーマンスを向上させることに重点を置いていた。
プライベートトレーニングデータセットを必要としないプライバシ保護指向のプルーニングおよびモバイルアクセラレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-13T23:52:03Z) - An Image Enhancing Pattern-based Sparsity for Real-time Inference on
Mobile Devices [58.62801151916888]
パターンと接続性を組み合わせた新しい空間空間,すなわちパターンベースの空間空間を導入し,高度に正確かつハードウェアに親しみやすいものにした。
新たなパターンベースの空間性に対する我々のアプローチは,モバイルプラットフォーム上での高効率DNN実行のためのコンパイラ最適化に自然に適合する。
論文 参考訳(メタデータ) (2020-01-20T16:17:36Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。