論文の概要: Self-Attentive Pooling for Efficient Deep Learning
- arxiv url: http://arxiv.org/abs/2209.07659v2
- Date: Mon, 19 Sep 2022 03:53:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 12:52:40.168421
- Title: Self-Attentive Pooling for Efficient Deep Learning
- Title(参考訳): 効率的な深層学習のための自己注意プール
- Authors: Fang Chen, Gourav Datta, Souvik Kundu, Peter Beerel
- Abstract要約: そこで本研究では,標準プーリング層に対するドロップイン代替として使用可能な,非局所的な自己係留型プーリング手法を提案する。
我々は、ImageNet上のMobileNet-V2の様々な変種に対する既存のプール技術のテスト精度を平均1.2%上回る。
提案手法は,イソメモリフットプリントを用いたSOTA技術と比較して1.43%高い精度を実現している。
- 参考スコア(独自算出の注目度): 6.822466048176652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient custom pooling techniques that can aggressively trim the dimensions
of a feature map and thereby reduce inference compute and memory footprint for
resource-constrained computer vision applications have recently gained
significant traction. However, prior pooling works extract only the local
context of the activation maps, limiting their effectiveness. In contrast, we
propose a novel non-local self-attentive pooling method that can be used as a
drop-in replacement to the standard pooling layers, such as max/average pooling
or strided convolution. The proposed self-attention module uses patch
embedding, multi-head self-attention, and spatial-channel restoration, followed
by sigmoid activation and exponential soft-max. This self-attention mechanism
efficiently aggregates dependencies between non-local activation patches during
down-sampling. Extensive experiments on standard object classification and
detection tasks with various convolutional neural network (CNN) architectures
demonstrate the superiority of our proposed mechanism over the state-of-the-art
(SOTA) pooling techniques. In particular, we surpass the test accuracy of
existing pooling techniques on different variants of MobileNet-V2 on ImageNet
by an average of 1.2%. With the aggressive down-sampling of the activation maps
in the initial layers (providing up to 22x reduction in memory consumption),
our approach achieves 1.43% higher test accuracy compared to SOTA techniques
with iso-memory footprints. This enables the deployment of our models in
memory-constrained devices, such as micro-controllers (without losing
significant accuracy), because the initial activation maps consume a
significant amount of on-chip memory for high-resolution images required for
complex vision tasks. Our proposed pooling method also leverages the idea of
channel pruning to further reduce memory footprints.
- Abstract(参考訳): 機能マップの次元を積極的にトリミングし、リソース制約のあるコンピュータビジョンアプリケーションの推論計算とメモリフットプリントを削減する効率的なカスタムプール技術が、最近大きな注目を集めている。
しかし、事前プーリング作業はアクティベーションマップの局所的なコンテキストのみを抽出し、有効性を制限する。
対照的に,max/average pooling や strided convolution といった標準プーリング層のドロップイン代替として使用できる,新しい非局所的自己注意プーリング法を提案する。
提案するセルフアテンションモジュールはパッチ埋め込み,マルチヘッド・セルフアテンション,空間チャネル修復,さらにsgmoidアクティベーションと指数的ソフトマックスを用いる。
このセルフアテンション機構は、ダウンサンプリング時に非ローカルアクティベーションパッチ間の依存関係を効率的に集約する。
様々な畳み込みニューラルネットワーク(CNN)アーキテクチャを用いた標準オブジェクト分類および検出タスクに関する広範囲な実験により、提案手法が最先端(SOTA)プーリング技術よりも優れていることを示す。
特に、ImageNet上のMobileNet-V2の様々な変種に対する既存のプール技術のテスト精度を平均1.2%上回る。
初期層におけるアクティベーションマップのアグレッシブなダウンサンプリング(最大22倍のメモリ消費削減)により,本手法はイソメモリフットプリントを持つSOTA技術と比較して1.43%高いテスト精度を実現する。
これにより、初期のアクティベーションマップは複雑な視覚タスクに必要な高解像度画像のために、かなりの量のオンチップメモリを消費するため、マイクロコントローラのようなメモリに制約のあるデバイスにモデルをデプロイすることができます。
提案手法では,チャネルプルーニングの概念を利用してメモリフットプリントをさらに削減する。
関連論文リスト
- Heterogenous Memory Augmented Neural Networks [84.29338268789684]
ニューラルネットワークのための新しいヘテロジニアスメモリ拡張手法を提案する。
学習可能なメモリトークンをアテンション機構付きで導入することにより、膨大な計算オーバーヘッドを伴わずに性能を効果的に向上させることができる。
In-distriion (ID) と Out-of-distriion (OOD) の両方の条件下での様々な画像およびグラフベースのタスクに対するアプローチを示す。
論文 参考訳(メタデータ) (2023-10-17T01:05:28Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - TinyAD: Memory-efficient anomaly detection for time series data in
Industrial IoT [43.207210990362825]
我々は,リアルタイムな異常検出のためのCNNのオンボード推論を効率的に行うための,Tiny Anomaly Detection (TinyAD) という新しいフレームワークを提案する。
CNNのピークメモリ消費を低減するため、我々は2つの相補的戦略、 in-place と patch-by-patch のメモリ再スケジューリングについて検討する。
我々のフレームワークは、オーバーヘッドを無視してピークメモリ消費を2~5倍削減できる。
論文 参考訳(メタデータ) (2023-03-07T02:56:15Z) - EcoTTA: Memory-Efficient Continual Test-time Adaptation via
Self-distilled Regularization [71.70414291057332]
TTAは主にメモリ制限のあるエッジデバイス上で実行される。
長期的な適応は、しばしば破滅的な忘れとエラーの蓄積につながる。
本稿では,凍結したオリジナルネットワークを対象ドメインに適応させる軽量なメタネットワークを提案する。
論文 参考訳(メタデータ) (2023-03-03T13:05:30Z) - Distributed Pruning Towards Tiny Neural Networks in Federated Learning [12.63559789381064]
FedTinyは、フェデレートラーニングのための分散プルーニングフレームワークである。
メモリとコンピューティングに制約のあるデバイスのための、特殊な小さなモデルを生成する。
2.61%の精度向上を実現し、計算コストを95.91%削減した。
論文 参考訳(メタデータ) (2022-12-05T01:58:45Z) - Learnable Mixed-precision and Dimension Reduction Co-design for
Low-storage Activation [9.838135675969026]
深層畳み込みニューラルネットワーク(CNN)は多くの眼球運動の結果を得た。
リソース制約のあるエッジデバイスにCNNをデプロイすることは、推論中に大きな中間データを送信するためのメモリ帯域幅の制限によって制限される。
チャネルをグループに分割し,その重要度に応じて圧縮ポリシーを割り当てる,学習可能な混合精度・次元縮小協調設計システムを提案する。
論文 参考訳(メタデータ) (2022-07-16T12:53:52Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - ActNN: Reducing Training Memory Footprint via 2-Bit Activation
Compressed Training [68.63354877166756]
ActNNは、バック伝搬のためのランダムに量子化されたアクティベーションを格納するメモリ効率のトレーニングフレームワークである。
ActNNはアクティベーションのメモリフットプリントを12倍に削減し、6.6倍から14倍のバッチサイズでトレーニングを可能にする。
論文 参考訳(メタデータ) (2021-04-29T05:50:54Z) - Refining activation downsampling with SoftPool [74.1840492087968]
畳み込みニューラルネットワーク(cnns)は、アクティベーションマップのサイズを減らすためにプールを使用する。
指数重化アクティベーションダウンサンプリングの高速かつ効率的な方法であるSoftPoolを提案します。
SoftPoolは、アクティベーションマップの縮小でより多くの情報を保持できることを示します。
論文 参考訳(メタデータ) (2021-01-02T12:09:49Z) - A Variational Information Bottleneck Based Method to Compress Sequential
Networks for Human Action Recognition [9.414818018857316]
本稿では,人間行動認識(HAR)に用いるリカレントニューラルネットワーク(RNN)を効果的に圧縮する手法を提案する。
変分情報ボトルネック(VIB)理論に基づくプルーニング手法を用いて,RNNの逐次セルを流れる情報の流れを小さなサブセットに制限する。
我々は、圧縮を大幅に改善する特定のグループ・ラッソ正規化手法とプルーニング手法を組み合わせる。
提案手法は,UCF11上での動作認識の精度に比較して,最も近い競合に比べて70倍以上の圧縮を実現する。
論文 参考訳(メタデータ) (2020-10-03T12:41:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。