論文の概要: Vision Transformers for Mobile Applications: A Short Survey
- arxiv url: http://arxiv.org/abs/2305.19365v1
- Date: Tue, 30 May 2023 19:12:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 19:57:57.603187
- Title: Vision Transformers for Mobile Applications: A Short Survey
- Title(参考訳): モバイルアプリケーションのためのビジョントランスフォーマー:簡単な調査
- Authors: Nahid Alam, Steven Kolawole, Simardeep Sethi, Nishant Bansali, Karina
Nguyen
- Abstract要約: ビジョントランスフォーマー(ViT)は多くのコンピュータビジョンタスクで最先端のパフォーマンスを実証している。
大規模なViTをデプロイすることは、多くのモバイルデバイスにとってリソースを消費し、不可能である。
モバイルアプリケーション用に特別に設計されたいくつかのViTを調べ、トランスフォーマーのアーキテクチャを変更するか、CNNとトランスフォーマーの組み合わせを中心に構築されていることを観察する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) have demonstrated state-of-the-art performance on
many Computer Vision Tasks. Unfortunately, deploying these large-scale ViTs is
resource-consuming and impossible for many mobile devices. While most in the
community are building for larger and larger ViTs, we ask a completely opposite
question: How small can a ViT be within the tradeoffs of accuracy and inference
latency that make it suitable for mobile deployment? We look into a few ViTs
specifically designed for mobile applications and observe that they modify the
transformer's architecture or are built around the combination of CNN and
transformer. Recent work has also attempted to create sparse ViT networks and
proposed alternatives to the attention module. In this paper, we study these
architectures, identify the challenges and analyze what really makes a vision
transformer suitable for mobile applications. We aim to serve as a baseline for
future research direction and hopefully lay the foundation to choose the
exemplary vision transformer architecture for your application running on
mobile devices.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は多くのコンピュータビジョンタスクで最先端のパフォーマンスを実証している。
残念ながら、これらの大規模なViTをデプロイすることは、多くのモバイルデバイスにとってリソースを消費し、不可能である。
コミュニティのほとんどが大規模で大規模なViTを開発しているが、まったく逆の質問をしている。 モバイルデプロイメントに適した正確性と推論レイテンシのトレードオフの中で、ViTはどの程度小さいのか?
モバイルアプリケーション用に特別に設計されたいくつかのViTを調べ、トランスフォーマーのアーキテクチャを変更するか、CNNとトランスフォーマーの組み合わせを中心に構築されていることを観察する。
最近の研究は、細かなViTネットワークの作成やアテンションモジュールの代替案の提案も試みている。
本稿では,これらのアーキテクチャを考察し,課題を特定し,モバイルアプリケーションに適したビジョントランスフォーマーを実際に作るかを分析する。
私たちは将来の研究方向性のベースラインとして機能することを目指しており、モバイルデバイス上で動作するアプリケーションのための模範的な視覚トランスフォーマーアーキテクチャを選択する基盤を築きたいと思っています。
関連論文リスト
- ViTs are Everywhere: A Comprehensive Study Showcasing Vision
Transformers in Different Domain [0.0]
ビジョントランスフォーマー(ViT)は、多くの視覚問題に対して、より人気があり支配的なソリューションになりつつある。
ViTは畳み込みニューラルネットワーク(CNN)でいくつかの困難を克服できる
論文 参考訳(メタデータ) (2023-10-09T12:31:30Z) - PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。
ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。
予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文 参考訳(メタデータ) (2023-10-06T21:45:05Z) - Compressing Vision Transformers for Low-Resource Visual Learning [7.662469543657508]
Vision Transformer(ViT)とその変種は、画像分類、オブジェクト検出、セマンティックセグメンテーションといったタスクにおいて最先端の精度を提供する。
これらのモデルは大規模で計算量が多いため、モバイルおよびエッジシナリオへのデプロイメントが制限される。
我々は,蒸留,プルーニング,量子化といった一般的なモデル圧縮技術を活用して,視覚変換器をエッジに持ち込むための一歩を踏み出したい。
論文 参考訳(メタデータ) (2023-09-05T23:33:39Z) - Rethinking Vision Transformers for MobileNet Size and Speed [58.01406896628446]
本稿では,低レイテンシでパラメータ効率の高い新しいスーパーネットを提案する。
また,変圧器モデルに対して,よりきめ細かな共同探索戦略を導入する。
この研究は、MobileNetレベルのサイズと速度であっても、適切に設計され、最適化されたビジョントランスフォーマーがハイパフォーマンスを実現することを実証している。
論文 参考訳(メタデータ) (2022-12-15T18:59:12Z) - Self-Distilled Vision Transformer for Domain Generalization [58.76055100157651]
ビジョントランスフォーマー(ViT)は、標準ベンチマークにおけるCNNの優位性に挑戦している。
本稿では,ViTの自己蒸留法として考案された簡易なDG手法を提案する。
5つの挑戦的なデータセットにおいて、異なるDGベースラインと様々なViTバックボーンによる顕著なパフォーマンス向上を実証的に示す。
論文 参考訳(メタデータ) (2022-07-25T17:57:05Z) - MoCoViT: Mobile Convolutional Vision Transformer [13.233314183471213]
モバイル・コンボリューショナル・ビジョン・トランスフォーマー(MoCoViT)を提案する。
MoCoViTは、モバイルデバイス向けに慎重に設計されており、非常に軽量で、2つの主要な修正によって実現されている。
総合的な実験により、提案したMoCoViTファミリーは、様々な視覚タスクにおいて、最先端のポータブルCNNやトランスフォーマーより優れていることが検証された。
論文 参考訳(メタデータ) (2022-05-25T10:21:57Z) - EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision
Transformers [88.52500757894119]
自己注意に基づく視覚変換器(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる、非常に競争力のあるアーキテクチャとして登場した。
われわれはEdgeViTsを紹介した。これは新しい軽量ViTのファミリーで、注目に基づく視覚モデルが初めて、最高の軽量CNNと競合することを可能にする。
論文 参考訳(メタデータ) (2022-05-06T18:17:19Z) - MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision
Transformer [24.47196590256829]
モバイルデバイス用の軽量ビジョントランスフォーマであるMobileViTを紹介する。
以上の結果から,MobileViT は CNN および ViT ベースのネットワークを,タスクやデータセット間で大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-10-05T17:07:53Z) - TransCenter: Transformers with Dense Queries for Multiple-Object
Tracking [87.75122600164167]
私たちは、標準表現(バウンディングボックス)は、マルチオブジェクトトラッキングのためのトランスフォーマー学習に適応していないと主張している。
複数のターゲットの中心を追跡するトランスフォーマーベースのアーキテクチャであるTransCenterを提案する。
論文 参考訳(メタデータ) (2021-03-28T14:49:36Z) - A Survey on Visual Transformer [126.56860258176324]
Transformerは、主に自己認識機構に基づくディープニューラルネットワークの一種である。
本稿では、これらの視覚変換器モデルについて、異なるタスクで分類し、それらの利点と欠点を分析することでレビューする。
論文 参考訳(メタデータ) (2020-12-23T09:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。