論文の概要: Vision Transformers for Action Recognition: A Survey
- arxiv url: http://arxiv.org/abs/2209.05700v1
- Date: Tue, 13 Sep 2022 02:57:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-14 12:28:21.555846
- Title: Vision Transformers for Action Recognition: A Survey
- Title(参考訳): 行動認識のための視覚変換器:サーベイ
- Authors: Anwaar Ulhaq, Naveed Akhtar, Ganna Pogrebna and Ajmal Mian
- Abstract要約: コンピュータビジョン問題を解決する強力なツールとして、ビジョントランスフォーマーが登場している。
最近の技術は、多数のビデオ関連タスクを解決するために、画像領域を超えたトランスフォーマーの有効性を証明している。
人間の行動認識は、広く応用されているため、研究コミュニティから特別に注目を集めている。
- 参考スコア(独自算出の注目度): 41.69370782177517
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision transformers are emerging as a powerful tool to solve computer vision
problems. Recent techniques have also proven the efficacy of transformers
beyond the image domain to solve numerous video-related tasks. Among those,
human action recognition is receiving special attention from the research
community due to its widespread applications. This article provides the first
comprehensive survey of vision transformer techniques for action recognition.
We analyze and summarize the existing and emerging literature in this direction
while highlighting the popular trends in adapting transformers for action
recognition. Due to their specialized application, we collectively refer to
these methods as ``action transformers''. Our literature review provides
suitable taxonomies for action transformers based on their architecture,
modality, and intended objective. Within the context of action transformers, we
explore the techniques to encode spatio-temporal data, dimensionality
reduction, frame patch and spatio-temporal cube construction, and various
representation methods. We also investigate the optimization of spatio-temporal
attention in transformer layers to handle longer sequences, typically by
reducing the number of tokens in a single attention operation. Moreover, we
also investigate different network learning strategies, such as self-supervised
and zero-shot learning, along with their associated losses for
transformer-based action recognition. This survey also summarizes the progress
towards gaining grounds on evaluation metric scores on important benchmarks
with action transformers. Finally, it provides a discussion on the challenges,
outlook, and future avenues for this research direction.
- Abstract(参考訳): コンピュータビジョン問題を解決する強力なツールとして、ビジョントランスフォーマーが登場している。
最近の技術は、多数のビデオ関連タスクを解決するために、画像領域以外のトランスフォーマーの有効性も証明している。
このうち、人間の行動認識は、広く応用されているため、研究コミュニティから特に注目を集めている。
本稿では,行動認識のための視覚トランスフォーマー技術に関する包括的調査を行う。
本稿では, 動作認識のためのトランスフォーマーの適用に関する一般的なトレンドに注目しながら, 既存の文献と新興文献をこの方向で分析, 要約する。
彼らの特殊な用途のために、これらのメソッドをまとめて ``action transformers''' と呼ぶ。
文献レビューでは, アクショントランスフォーマーのアーキテクチャ, モダリティ, 意図した目的に基づいて, 適切な分類を提示する。
動作変換器のコンテキスト内では、時空間データ、次元減少、フレームパッチ、時空間構成、および様々な表現方法を符号化する手法を検討する。
また、1つの注意操作におけるトークン数を減らすことにより、より長いシーケンスを扱うトランスフォーマー層における時空間的注意の最適化についても検討する。
さらに,自己教師型やゼロショット学習などの異なるネットワーク学習戦略や,トランスフォーマーに基づく行動認識の損失についても検討する。
この調査はまた、アクショントランスフォーマーを用いた重要なベンチマークにおける評価基準値の獲得に向けた進展を要約している。
最後に、この研究の方向性に対する課題、展望、今後の方向性について議論する。
関連論文リスト
- Transformers in Reinforcement Learning: A Survey [7.622978576824539]
トランスフォーマーは自然言語処理、コンピュータビジョン、ロボット工学といった領域に影響を与え、他のニューラルネットワークと比較してパフォーマンスを改善している。
この調査では、トランスフォーマーが強化学習(RL)でどのように使われているかを調査し、不安定なトレーニング、クレジット割り当て、解釈可能性の欠如、部分的可観測性といった課題に対処するための有望な解決策と見なされている。
論文 参考訳(メタデータ) (2023-07-12T07:51:12Z) - Object Detection with Transformers: A Review [11.255962936937744]
本報告では, 従来のDETRモデルにおいて提案された21の進歩について概説する。
我々は、様々な検出変換器の比較分析を行い、その性能とネットワークアーキテクチャを評価した。
この研究は、既存の課題に対処し、オブジェクト検出領域におけるトランスフォーマーの適用を探求する研究者の間で、さらなる関心を喚起することを期待している。
論文 参考訳(メタデータ) (2023-06-07T16:13:38Z) - Advances in Medical Image Analysis with Vision Transformers: A
Comprehensive Review [6.953789750981636]
医療画像におけるトランスフォーマーの応用に関する百科事典のレビューを行う。
具体的には,医療画像解析タスクにおけるトランスフォーマー関連文献の体系的,徹底的なレビューを行う。
論文 参考訳(メタデータ) (2023-01-09T16:56:23Z) - Learning Explicit Object-Centric Representations with Vision
Transformers [81.38804205212425]
我々は、マスク付き自動符号化の自己超越タスクを構築し、トランスフォーマーを用いたオブジェクト中心表現学習の有効性を探求する。
複数のマルチオブジェクト・ベンチマークのセグメンテーション・メトリクスによって測定された単純なシーンを効率的に分解できることを示す。
論文 参考訳(メタデータ) (2022-10-25T16:39:49Z) - 3D Vision with Transformers: A Survey [114.86385193388439]
自然言語処理におけるトランスフォーマーアーキテクチャの成功は、コンピュータビジョン分野の注目を集めている。
本稿では,異なる3次元視覚タスクのための100以上のトランスフォーマー手法の体系的,徹底的なレビューを行う。
我々は3次元視覚におけるトランスフォーマー設計について議論し、様々な3次元表現でデータを処理できるようにする。
論文 参考訳(メタデータ) (2022-08-08T17:59:11Z) - Blending Anti-Aliasing into Vision Transformer [57.88274087198552]
不連続なパッチ単位のトークン化プロセスは、ジャッジされたアーティファクトをアテンションマップに暗黙的に導入する。
エイリアス効果は、離散パターンを使用して高周波または連続的な情報を生成し、区別不能な歪みをもたらす。
本稿では,前述の問題を緩和するためのAliasing-Reduction Module(ARM)を提案する。
論文 参考訳(メタデータ) (2021-10-28T14:30:02Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z) - A Survey on Visual Transformer [126.56860258176324]
Transformerは、主に自己認識機構に基づくディープニューラルネットワークの一種である。
本稿では、これらの視覚変換器モデルについて、異なるタスクで分類し、それらの利点と欠点を分析することでレビューする。
論文 参考訳(メタデータ) (2020-12-23T09:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。