論文の概要: Designing Extremely Memory-Efficient CNNs for On-device Vision Tasks
- arxiv url: http://arxiv.org/abs/2408.03663v1
- Date: Wed, 7 Aug 2024 10:04:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 13:24:06.972033
- Title: Designing Extremely Memory-Efficient CNNs for On-device Vision Tasks
- Title(参考訳): オンデバイスビジョンタスクのための超高効率CNNの設計
- Authors: Jaewook Lee, Yoel Park, Seulki Lee,
- Abstract要約: デバイス上での視覚タスクにメモリ効率の良いCNN(畳み込みニューラルネットワーク)を導入する。
提案したネットワークは、競合するトップ1の精度(61.58%)を達成しつつ、非常に低いメモリ(63KB)でImageNetを分類する。
我々の知る限り、提案するネットワークのメモリ使用量は最先端のメモリ効率ネットワークよりもはるかに少ない。
- 参考スコア(独自算出の注目度): 2.9835839258066015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce a memory-efficient CNN (convolutional neural network), which enables resource-constrained low-end embedded and IoT devices to perform on-device vision tasks, such as image classification and object detection, using extremely low memory, i.e., only 63 KB on ImageNet classification. Based on the bottleneck block of MobileNet, we propose three design principles that significantly curtail the peak memory usage of a CNN so that it can fit the limited KB memory of the low-end device. First, 'input segmentation' divides an input image into a set of patches, including the central patch overlapped with the others, reducing the size (and memory requirement) of a large input image. Second, 'patch tunneling' builds independent tunnel-like paths consisting of multiple bottleneck blocks per patch, penetrating through the entire model from an input patch to the last layer of the network, maintaining lightweight memory usage throughout the whole network. Lastly, 'bottleneck reordering' rearranges the execution order of convolution operations inside the bottleneck block such that the memory usage remains constant regardless of the size of the convolution output channels. The experiment result shows that the proposed network classifies ImageNet with extremely low memory (i.e., 63 KB) while achieving competitive top-1 accuracy (i.e., 61.58\%). To the best of our knowledge, the memory usage of the proposed network is far smaller than state-of-the-art memory-efficient networks, i.e., up to 89x and 3.1x smaller than MobileNet (i.e., 5.6 MB) and MCUNet (i.e., 196 KB), respectively.
- Abstract(参考訳): 本稿では、メモリ効率のよいCNN(畳み込みニューラルネットワーク)を導入し、画像分類やオブジェクト検出などのデバイス上でのビジョンタスク、すなわち、画像Net分類において63KBしか使用できないような、リソース制約のあるローエンドの組込みおよびIoTデバイスを実現する。
MobileNetのボトルネックブロックに基づいて、CNNのピークメモリ使用量を大幅に削減し、ローエンドデバイスの限られたKBメモリに適合させる3つの設計原則を提案する。
まず、「入力セグメンテーション」は、入力画像を他の部分と重なり合う中央パッチを含む一連のパッチに分割し、大きな入力画像のサイズ(およびメモリ要求)を小さくする。
第2に、"パッチトンネリング"は、パッチ毎に複数のボトルネックブロックで構成される独立したトンネルのようなパスを構築し、入力パッチからネットワークの最後の層へモデル全体を通して浸透し、ネットワーク全体の軽量メモリ使用率を維持する。
最後に、'bottleneck reordering' はボトルネックブロック内での畳み込み操作の実行順序を再構成し、畳み込み出力チャネルのサイズに関わらずメモリ使用量が一定となるようにする。
実験の結果,提案したネットワークは,競合するトップ1の精度(61.58\%)を達成しつつ,極めて低いメモリ(63KB)でImageNetを分類した。
我々の知る限りでは、提案したネットワークのメモリ使用量は最先端のメモリ効率ネットワーク、すなわちMobileNet(5.6MB)とMCUNet(196KB)の最大89倍と3.1倍にはるかに小さい。
関連論文リスト
- Robust and Efficient Memory Network for Video Object Segmentation [6.7995672846437305]
本稿では,半教師付きビデオオブジェクトセグメンテーション(VOS)研究のためのロバストかつ効率的なメモリネットワーク(REMN)を提案する。
我々は,前景の物体の特徴を前景のマスクで高めることにより,背景の乱れに対処する局所的な注意機構を導入する。
実験によると、我々のREMNはDAVIS 2017で最先端の結果を達成しており、$mathcalJ&F$スコアは86.3%、YouTube-VOS 2018では$mathcalG$平均85.5%である。
論文 参考訳(メタデータ) (2023-04-24T06:19:21Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - Condensation-Net: Memory-Efficient Network Architecture with
Cross-Channel Pooling Layers and Virtual Feature Maps [28.992851280809205]
特徴マップのメモリ容量を最大化することなく,特定のネットワークアーキテクチャ(コンデンセーションネット)を処理するアルゴリズムを提案する。
クロスチャネルプーリングは、顔検出などのオブジェクト検出タスクの精度を向上させることができる。
提案するハードウェアアーキテクチャでクロスチャネルプーリングをサポートするオーバーヘッドは無視できるほど小さい。
論文 参考訳(メタデータ) (2021-04-29T05:44:02Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z) - MoViNets: Mobile Video Networks for Efficient Video Recognition [52.49314494202433]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識では正確だが、大きな計算とメモリ予算を必要とする。
本稿では,3次元CNNのピークメモリ使用量を大幅に削減しつつ,計算効率を向上させる3段階の手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T23:06:38Z) - Bottleneck Transformers for Visual Recognition [97.16013761605254]
視覚タスクに自己注意を組み込んだ強力なバックボーンアーキテクチャであるBoTNetを提案する。
我々は、ImageNetベンチマークにおいて84.7%のトップ1の精度で高いパフォーマンスを達成するモデルを提案する。
私たちのシンプルで効果的なアプローチが、将来のビジョンのための自己注意モデル研究の強力なベースラインになることを期待しています。
論文 参考訳(メタデータ) (2021-01-27T18:55:27Z) - Out-of-core Training for Extremely Large-Scale Neural Networks With
Adaptive Window-Based Scheduling [4.903820815918411]
本稿では,GPUメモリよりも大容量の超大規模ニューラルネットワークを高速にトレーニングする,新しいアウトオブコアアルゴリズムを提案する。
我々は、コア外実行によるニューラルネットワークのトレーニングに、OSで一般的に実行される仮想アドレッシング技術を適用した。
ResNet-50を1440バッチサイズでトレーニングし、トレーニング速度を55%に保ちました。
論文 参考訳(メタデータ) (2020-10-27T07:40:04Z) - Leveraging Automated Mixed-Low-Precision Quantization for tiny edge
microcontrollers [76.30674794049293]
本稿では、HAQフレームワークに基づく自動混合精度量子化フローを提案するが、MCUデバイスのメモリおよび計算特性に特化している。
具体的には、強化学習エージェントは、個々の重みとアクティベーションテンソルの2, 4, 8ビットのうち、最高の均一量子化レベルを探索する。
重量のみの量子化のために2MBに制限されたMCUクラスのメモリが与えられた場合、混合精度エンジンによって生成された圧縮されたモデルは、最先端のソリューションと同じくらい正確である。
論文 参考訳(メタデータ) (2020-08-12T06:09:58Z) - Video Object Segmentation with Episodic Graph Memory Networks [198.74780033475724]
セグメント化モデルを更新する学習」という新しいアイデアに対処するために,グラフメモリネットワークが開発された。
我々は、完全に連結されたグラフとして構成されたエピソードメモリネットワークを利用して、フレームをノードとして保存し、エッジによってフレーム間の相関をキャプチャする。
提案したグラフメモリネットワークは、一発とゼロショットの両方のビデオオブジェクトセグメンテーションタスクをうまく一般化できる、巧妙だが原則化されたフレームワークを提供する。
論文 参考訳(メタデータ) (2020-07-14T13:19:19Z) - Quantitative Analysis of Image Classification Techniques for
Memory-Constrained Devices [0.7373617024876725]
畳み込みニューラルネットワーク(英: Convolutional Neural Networks、CNN)は、画像分類の最先端技術であるが、通常、大きなメモリフットプリントのコストがかかる。
本稿では,CNNとProtoNN,Bonsai,FastGRNNを比較し,CIFAR-10を用いた3チャンネル画像分類に適用する。
直接畳み込みCNNは選択した全ての予算に対して最高の性能を示し、最高性能は65.7%、メモリフットプリントは58.23KBである。
論文 参考訳(メタデータ) (2020-05-11T09:54:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。