論文の概要: Computer Vision Model Compression Techniques for Embedded Systems: A Survey
- arxiv url: http://arxiv.org/abs/2408.08250v1
- Date: Thu, 15 Aug 2024 16:41:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 13:16:25.690358
- Title: Computer Vision Model Compression Techniques for Embedded Systems: A Survey
- Title(参考訳): 組込みシステムのためのコンピュータビジョンモデル圧縮技術:サーベイ
- Authors: Alexandre Lopes, Fernando Pereira dos Santos, Diulhio de Oliveira, Mauricio Schiezaro, Helio Pedrini,
- Abstract要約: 本稿では,コンピュータビジョンタスクに適用される主モデル圧縮技術について述べる。
本稿では,圧縮サブ領域の特性について述べるとともに,異なるアプローチを比較し,最適な手法を選択する方法について論じる。
初期の実装課題を克服する上で、研究者や新しい実践者を支援するためのコードも共有しています。
- 参考スコア(独自算出の注目度): 75.38606213726906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks have consistently represented the state of the art in most computer vision problems. In these scenarios, larger and more complex models have demonstrated superior performance to smaller architectures, especially when trained with plenty of representative data. With the recent adoption of Vision Transformer (ViT) based architectures and advanced Convolutional Neural Networks (CNNs), the total number of parameters of leading backbone architectures increased from 62M parameters in 2012 with AlexNet to 7B parameters in 2024 with AIM-7B. Consequently, deploying such deep architectures faces challenges in environments with processing and runtime constraints, particularly in embedded systems. This paper covers the main model compression techniques applied for computer vision tasks, enabling modern models to be used in embedded systems. We present the characteristics of compression subareas, compare different approaches, and discuss how to choose the best technique and expected variations when analyzing it on various embedded devices. We also share codes to assist researchers and new practitioners in overcoming initial implementation challenges for each subarea and present trends for Model Compression. Case studies for compression models are available at \href{https://github.com/venturusbr/cv-model-compression}{https://github.com/venturusbr/cv-model-compression}.
- Abstract(参考訳): ディープニューラルネットワークは、ほとんどのコンピュータビジョン問題の最先端を一貫して表している。
これらのシナリオでは、より大規模で複雑なモデルは、特に多くの代表データでトレーニングされた場合、より小さなアーキテクチャよりも優れたパフォーマンスを示している。
ビジョントランスフォーマー(ViT)ベースのアーキテクチャと高度な畳み込みニューラルネットワーク(CNN)の採用により、主要なバックボーンアーキテクチャのパラメータの総数は2012年の62Mパラメータから、2024年にはAIM-7Bで7Bパラメータに増加した。
その結果、深層アーキテクチャのデプロイは、特に組み込みシステムにおいて、処理と実行時の制約のある環境での課題に直面します。
本稿では,コンピュータビジョンタスクに適用される主モデル圧縮技術について述べる。
本稿では, 各種組込みデバイスにおいて, 圧縮サブ領域の特性を示し, 異なるアプローチを比較し, 最適技術の選択方法, 予測バリエーションについて考察する。
また、各サブ領域における初期実装課題を克服し、モデル圧縮のトレンドを提示する上で、研究者や新しい実践者を支援するためのコードを共有します。
圧縮モデルのケーススタディは \href{https://github.com/venturusbr/cv-model-compression}{https://github.com/venturusbr/cv-model-compression} で見ることができる。
関連論文リスト
- Adaptable Embeddings Network (AEN) [49.1574468325115]
我々はカーネル密度推定(KDE)を用いた新しいデュアルエンコーダアーキテクチャであるAdaptable Embeddings Networks (AEN)を紹介する。
AENは、再トレーニングせずに分類基準のランタイム適応を可能にし、非自己回帰的である。
アーキテクチャのプリプロセスとキャッシュ条件の埋め込み能力は、エッジコンピューティングアプリケーションやリアルタイム監視システムに最適である。
論文 参考訳(メタデータ) (2024-11-21T02:15:52Z) - A Survey on Transformer Compression [84.18094368700379]
自然言語処理(NLP)とコンピュータビジョン(CV)の領域においてトランスフォーマーは重要な役割を果たす
モデル圧縮法は、Transformerのメモリと計算コストを削減する。
この調査は、Transformerベースのモデルに適用することに焦点を当てた、最近の圧縮方法に関する包括的なレビューを提供する。
論文 参考訳(メタデータ) (2024-02-05T12:16:28Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - Knowledge Distillation in Vision Transformers: A Critical Review [6.508088032296086]
ビジョントランスフォーマー(ViT)は、畳み込みニューラルネットワーク(CNN)よりも優れたパフォーマンス向上を実証した。
モデル圧縮は、最近、潜在的治療としてかなりの研究の注目を集めている。
本稿では、VTモデルの効率的な圧縮のためのKDに基づく様々なアプローチについて論じる。
論文 参考訳(メタデータ) (2023-02-04T06:30:57Z) - VeriCompress: A Tool to Streamline the Synthesis of Verified Robust
Compressed Neural Networks from Scratch [10.061078548888567]
AIの広範な統合により、安全クリティカルなシナリオのために、エッジや同様のリミテッドリソースプラットフォームにニューラルネットワーク(NN)がデプロイされるようになる。
本研究では,頑健性を保証する圧縮モデルの検索とトレーニングを自動化するツールであるVeriCompressを紹介する。
この方法は、最先端のアプローチよりも2~3倍高速で、それぞれ15.1ポイントと9.8ポイントの平均精度とロバスト性ゲインで関連するベースラインアプローチを上回ります。
論文 参考訳(メタデータ) (2022-11-17T23:42:10Z) - Sparsity-guided Network Design for Frame Interpolation [39.828644638174225]
フレームベースアルゴリズムのための圧縮駆動型ネットワーク設計を提案する。
モデルサイズを大幅に削減するために、スパーシリティ誘導最適化によるモデルプルーニングを活用する。
原型AdaCoFの4分の1の大きさで大幅な性能向上を実現しています。
論文 参考訳(メタデータ) (2022-09-09T23:13:25Z) - Real-time Neural-MPC: Deep Learning Model Predictive Control for
Quadrotors and Agile Robotic Platforms [59.03426963238452]
モデル予測制御パイプライン内の動的モデルとして,大規模で複雑なニューラルネットワークアーキテクチャを効率的に統合するフレームワークであるReal-time Neural MPCを提案する。
ニューラルネットワークを使わずに、最先端のMPCアプローチと比較して、位置追跡誤差を最大82%削減することで、実世界の問題に対する我々のフレームワークの実現可能性を示す。
論文 参考訳(メタデータ) (2022-03-15T09:38:15Z) - Video Coding for Machine: Compact Visual Representation Compression for
Intelligent Collaborative Analytics [101.35754364753409]
Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジすることを約束している。
本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
論文 参考訳(メタデータ) (2021-10-18T12:42:13Z) - Compression strategies and space-conscious representations for deep
neural networks [0.3670422696827526]
近年のディープラーニングの進歩により、いくつかの実世界のアプリケーションで最先端のパフォーマンスを備えた強力な畳み込みニューラルネットワーク(CNN)が利用可能になった。
CNNには数百万のパラメータがあり、リソース制限のあるプラットフォームではデプロイできない。
本稿では,重み付けと量子化によるCNNの損失圧縮の影響について検討する。
論文 参考訳(メタデータ) (2020-07-15T19:41:19Z) - Tidying Deep Saliency Prediction Architectures [6.613005108411055]
本稿では,入力特徴,マルチレベル統合,読み出しアーキテクチャ,損失関数の4つの主成分を同定する。
我々はSimpleNet と MDNSal という2つの新しいエンドツーエンドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-03-10T19:34:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。