論文の概要: DirecFormer: A Directed Attention in Transformer Approach to Robust
Action Recognition
- arxiv url: http://arxiv.org/abs/2203.10233v1
- Date: Sat, 19 Mar 2022 03:41:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 16:12:23.423862
- Title: DirecFormer: A Directed Attention in Transformer Approach to Robust
Action Recognition
- Title(参考訳): DirecFormer:ロバスト行動認識のためのトランスフォーマーアプローチにおける指示的注意
- Authors: Thanh-Dat Truong, Quoc-Huy Bui, Chi Nhan Duong, Han-Seok Seo, Son Lam
Phung, Xin Li, Khoa Luu
- Abstract要約: この研究は、堅牢なアクション認識のための、エンドツーエンドのトランスフォーマーベースのDirected Attentionフレームワークを提案する。
本研究の貢献は3倍であり、まず、順序付けられた時間的学習問題の問題を行動認識問題に導入する。
第二に、人間の行動を正しい順番で理解し、注意を向けるために、新しい方向性注意機構が導入された。
- 参考スコア(独自算出の注目度): 22.649489578944838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human action recognition has recently become one of the popular research
topics in the computer vision community. Various 3D-CNN based methods have been
presented to tackle both the spatial and temporal dimensions in the task of
video action recognition with competitive results. However, these methods have
suffered some fundamental limitations such as lack of robustness and
generalization, e.g., how does the temporal ordering of video frames affect the
recognition results? This work presents a novel end-to-end Transformer-based
Directed Attention (DirecFormer) framework for robust action recognition. The
method takes a simple but novel perspective of Transformer-based approach to
understand the right order of sequence actions. Therefore, the contributions of
this work are three-fold. Firstly, we introduce the problem of ordered temporal
learning issues to the action recognition problem. Secondly, a new Directed
Attention mechanism is introduced to understand and provide attentions to human
actions in the right order. Thirdly, we introduce the conditional dependency in
action sequence modeling that includes orders and classes. The proposed
approach consistently achieves the state-of-the-art (SOTA) results compared
with the recent action recognition methods, on three standard large-scale
benchmarks, i.e. Jester, Kinetics-400 and Something-Something-V2.
- Abstract(参考訳): 人間の行動認識は近年、コンピュータビジョンコミュニティで人気のある研究トピックの1つになっている。
3D-CNNに基づく様々な手法が,映像行動認識の課題における空間次元と時間次元の両面に取り組むために提案されている。
しかし,ビデオフレームの時間順序付けは認識結果にどのように影響するかなど,ロバスト性や一般化の欠如といった基本的な制約を生んでいる。
本稿では,新しいエンド・ツー・エンドのトランスフォーマティブ・アテンション(direcformer)フレームワークによるロバストな動作認識を提案する。
この手法は、トランスフォーマティブベースアプローチの単純だが斬新な視点を用いて、シーケンスアクションの正しい順序を理解する。
したがって、この作品の貢献は3倍である。
まず,順序付けられた時間的学習問題の問題を行動認識問題に導入する。
第二に、人間の行動を正しい順番で理解し、注意を向けるために、新しい方向性注意機構が導入された。
第3に、注文とクラスを含むアクションシーケンスモデリングにおける条件依存性を導入する。
提案手法は,Jester, Kinetics-400, Some-Something-V2 という3つの標準的な大規模ベンチマークにおいて,最近の行動認識手法と比較して常に最先端のSOTA(State-of-the-art)結果を達成している。
関連論文リスト
- Multi-view Action Recognition via Directed Gromov-Wasserstein Discrepancy [12.257725479880458]
行動認識はコンピュータビジョンにおける人気のある研究トピックの1つとなっている。
本稿では,アクションビデオの2つの異なる視点から2つの注意の類似性を計算する多視点アテンション整合性手法を提案する。
我々のアプローチでは、単一ビューデータセットのトレーニングにおいて、新しいビューからの機能を暗黙的にレンダリングするために、Neural Radiance Fieldというアイデアを適用しています。
論文 参考訳(メタデータ) (2024-05-02T14:43:21Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Hierarchical Temporal Transformer for 3D Hand Pose Estimation and Action
Recognition from Egocentric RGB Videos [50.74218823358754]
我々は,時間的情報を利用してロバストな推定を行うトランスフォーマーベースのフレームワークを開発した。
2つのカスケード変換器エンコーダを用いたネットワーク階層を構築し,まず手振り推定の短期的キューを利用する。
提案手法は,FPHAとH2Oの2つの個人手動作ベンチマークにおいて競合する結果を得る。
論文 参考訳(メタデータ) (2022-09-20T05:52:54Z) - ActAR: Actor-Driven Pose Embeddings for Video Action Recognition [12.043574473965318]
ビデオにおけるヒューマンアクション認識(HAR)は、ビデオ理解のコアタスクの1つである。
我々は,赤外スペクトルにおける効率的な人間の行動を認識することを同時に学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-04-19T05:12:24Z) - LocATe: End-to-end Localization of Actions in 3D with Transformers [91.28982770522329]
LocATeは、3Dシーケンスでアクションを共同でローカライズし認識するエンドツーエンドのアプローチである。
画像やパッチの特徴を入力として考えるトランスフォーマーベースのオブジェクト検出や分類モデルとは異なり、LocATeのトランスフォーマーモデルはシーケンス内のアクション間の長期的な相関をキャプチャすることができる。
BABEL-TAL-20 (BT20) という新しい,挑戦的で,より現実的なベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2022-03-21T03:35:32Z) - Zero-Shot Action Recognition with Transformer-based Video Semantic
Embedding [36.24563211765782]
現実的な視点から、帰納的ゼロショット動作認識問題を包括的に考察する。
具体的には,ゼロショット動作認識のための具体的定式化を提唱する。
本稿では,長期間の時間依存性を効率的に捉えることができる新しいエンドツーエンド学習型トランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-03-10T05:03:58Z) - Temporal Shuffling for Defending Deep Action Recognition Models against
Adversarial Attacks [67.58887471137436]
本研究では,動作認識モデルに対する対人攻撃に対して,入力ビデオの時間的シャッフルを用いた新しい防御手法を開発した。
我々の知る限りでは、これは3D CNNに基づく映像行動認識モデルのための追加トレーニングなしで防御方法を設計する最初の試みである。
論文 参考訳(メタデータ) (2021-12-15T06:57:01Z) - Dynamic Inference: A New Approach Toward Efficient Video Action
Recognition [69.9658249941149]
ビデオにおけるアクション認識は近年大きな成功を収めているが、膨大な計算コストのために依然として難しい課題である。
本稿では,異なるビデオの識別可能性の変動を利用して,推論効率を向上させるための一般的な動的推論手法を提案する。
論文 参考訳(メタデータ) (2020-02-09T11:09:56Z) - Delving into 3D Action Anticipation from Streaming Videos [99.0155538452263]
アクション予測は、部分的な観察でアクションを認識することを目的としている。
本稿では,いくつかの相補的評価指標を導入し,フレームワイド動作分類に基づく基本モデルを提案する。
また,全動作表現とクラス非依存行動ラベルという2つの側面から補助情報を取り入れたマルチタスク学習戦略についても検討する。
論文 参考訳(メタデータ) (2019-06-15T10:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。