論文の概要: Compressing Vision Transformers for Low-Resource Visual Learning
- arxiv url: http://arxiv.org/abs/2309.02617v1
- Date: Tue, 5 Sep 2023 23:33:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 17:17:13.485213
- Title: Compressing Vision Transformers for Low-Resource Visual Learning
- Title(参考訳): 低リソース視覚学習のための視覚トランスフォーマーの圧縮
- Authors: Eric Youn, Sai Mitheran J, Sanjana Prabhu, Siyuan Chen
- Abstract要約: Vision Transformer(ViT)とその変種は、画像分類、オブジェクト検出、セマンティックセグメンテーションといったタスクにおいて最先端の精度を提供する。
これらのモデルは大規模で計算量が多いため、モバイルおよびエッジシナリオへのデプロイメントが制限される。
我々は,蒸留,プルーニング,量子化といった一般的なモデル圧縮技術を活用して,視覚変換器をエッジに持ち込むための一歩を踏み出したい。
- 参考スコア(独自算出の注目度): 7.662469543657508
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision transformer (ViT) and its variants have swept through visual learning
leaderboards and offer state-of-the-art accuracy in tasks such as image
classification, object detection, and semantic segmentation by attending to
different parts of the visual input and capturing long-range spatial
dependencies. However, these models are large and computation-heavy. For
instance, the recently proposed ViT-B model has 86M parameters making it
impractical for deployment on resource-constrained devices. As a result, their
deployment on mobile and edge scenarios is limited. In our work, we aim to take
a step toward bringing vision transformers to the edge by utilizing popular
model compression techniques such as distillation, pruning, and quantization.
Our chosen application environment is an unmanned aerial vehicle (UAV) that
is battery-powered and memory-constrained, carrying a single-board computer on
the scale of an NVIDIA Jetson Nano with 4GB of RAM. On the other hand, the UAV
requires high accuracy close to that of state-of-the-art ViTs to ensure safe
object avoidance in autonomous navigation, or correct localization of humans in
search-and-rescue. Inference latency should also be minimized given the
application requirements. Hence, our target is to enable rapid inference of a
vision transformer on an NVIDIA Jetson Nano (4GB) with minimal accuracy loss.
This allows us to deploy ViTs on resource-constrained devices, opening up new
possibilities in surveillance, environmental monitoring, etc. Our
implementation is made available at https://github.com/chensy7/efficient-vit.
- Abstract(参考訳): 視覚トランスフォーマー(vit)とその変種は、視覚学習のリーダーボードを通り抜け、画像分類、オブジェクト検出、セマンティックセグメンテーションなどのタスクにおいて、視覚入力の異なる部分に参加し、長距離空間依存性をキャプチャすることで、最先端の精度を提供する。
しかし、これらのモデルは巨大で計算量が多い。
例えば、最近提案されたViT-Bモデルには86Mパラメータがあり、リソース制約のあるデバイスへのデプロイには実用的ではない。
その結果、モバイルとエッジのシナリオへのデプロイメントは限られている。
本研究では,蒸留,プルーニング,量子化といった一般的なモデル圧縮技術を活用して,視覚トランスフォーマーをエッジに持ち込むための一歩を踏み出す。
我々の選択したアプリケーション環境は、バッテリー駆動でメモリに制約のある無人航空機(UAV)で、4GBのRAMを持つNVIDIA Jetson Nanoのスケールでシングルボードコンピュータを搭載。
一方UAVは、自律航法における安全な物体回避や、捜索救助における人間の正確な位置決めを確保するために、最先端のViTに近い精度の精度を必要とする。
アプリケーションの要件を考慮すると、推論のレイテンシも最小限にすべきです。
したがって、私たちの目標は、nvidia jetson nano (4gb) 上のビジョントランスフォーマーを、最小限の精度の損失で迅速に推論できるようにすることです。
これにより、リソース制約のあるデバイスにViTをデプロイし、監視や環境監視などの新たな可能性を開くことができます。
実装はhttps://github.com/chensy7/ efficient-vitで利用可能です。
関連論文リスト
- Optimizing Vision Transformers with Data-Free Knowledge Transfer [8.323741354066474]
視覚変換器(ViT)は、長距離依存を捕捉する能力に優れており、様々なコンピュータビジョンタスクに優れていた。
本稿では,KD(Knowledge Distillation)を用いた大規模ViTモデルの圧縮を提案する。
論文 参考訳(メタデータ) (2024-08-12T07:03:35Z) - Tiny Multi-Agent DRL for Twins Migration in UAV Metaverses: A Multi-Leader Multi-Follower Stackelberg Game Approach [57.15309977293297]
無人航空機(UAV)とメタバースの相乗効果は、UAVメタバースと呼ばれる新しいパラダイムを生み出している。
本稿では,UAVメタバースにおける効率的なUTマイグレーションのためのプルーニング技術に基づく,機械学習に基づく小さなゲームフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-18T02:14:13Z) - Denoising Vision Transformers [43.03068202384091]
本稿では、DVT(Denoising Vision Transformers)と呼ばれる2段階のDenoisingアプローチを提案する。
第1段階では、画像ごとのニューラルネットワークとの横断的な特徴整合を強制することにより、位置的アーティファクトによって汚染されたものからクリーンな特徴を分離する。
第2段階では、クリーンな特徴を生のViT出力から予測するために軽量なトランスフォーマーブロックを訓練し、クリーンな特徴の導出推定を監督として活用する。
論文 参考訳(メタデータ) (2024-01-05T18:59:52Z) - PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。
ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。
予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文 参考訳(メタデータ) (2023-10-06T21:45:05Z) - Vision Transformers for Mobile Applications: A Short Survey [0.0]
ビジョントランスフォーマー(ViT)は多くのコンピュータビジョンタスクで最先端のパフォーマンスを実証している。
大規模なViTをデプロイすることは、多くのモバイルデバイスにとってリソースを消費し、不可能である。
モバイルアプリケーション用に特別に設計されたいくつかのViTを調べ、トランスフォーマーのアーキテクチャを変更するか、CNNとトランスフォーマーの組み合わせを中心に構築されていることを観察する。
論文 参考訳(メタデータ) (2023-05-30T19:12:08Z) - ViTA: A Vision Transformer Inference Accelerator for Edge Applications [4.3469216446051995]
ViT、Swin Transformer、Transformer-in-Transformerといったビジョントランスモデルは近年、コンピュータビジョンタスクにおいて大きな注目を集めている。
これらは計算量が多く、リソース制約のあるエッジデバイスにデプロイするのは難しい。
本稿では、リソース制約のあるエッジコンピューティングデバイスをターゲットにしたビジョントランスフォーマーモデル推論用ハードウェアアクセラレータViTAを提案する。
論文 参考訳(メタデータ) (2023-02-17T19:35:36Z) - TransVisDrone: Spatio-Temporal Transformer for Vision-based
Drone-to-Drone Detection in Aerial Videos [57.92385818430939]
視覚的フィードを用いたドローンからドローンへの検知は、ドローンの衝突の検出、ドローンの攻撃の検出、他のドローンとの飛行の調整など、重要な応用がある。
既存の手法は計算コストがかかり、非エンドツーエンドの最適化に追随し、複雑なマルチステージパイプラインを持つため、エッジデバイス上でのリアルタイムデプロイメントには適さない。
計算効率を向上したエンドツーエンドのソリューションを提供する,シンプルで効果的なフレームワークであるitTransVisDroneを提案する。
論文 参考訳(メタデータ) (2022-10-16T03:05:13Z) - An Extendable, Efficient and Effective Transformer-based Object Detector [95.06044204961009]
我々は、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
ViDTは、最近のSwin Transformerをスタンドアロンのオブジェクト検出器に拡張するために、再構成されたアテンションモジュールを導入した。
オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。
論文 参考訳(メタデータ) (2022-04-17T09:27:45Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。