論文の概要: Egocentric Action Recognition by Video Attention and Temporal Context
- arxiv url: http://arxiv.org/abs/2007.01883v1
- Date: Fri, 3 Jul 2020 18:00:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 05:57:25.813770
- Title: Egocentric Action Recognition by Video Attention and Temporal Context
- Title(参考訳): 映像意図と時間文脈による自己中心的行動認識
- Authors: Juan-Manuel Perez-Rua, Antoine Toisoul, Brais Martinez, Victor
Escorcia, Li Zhang, Xiatian Zhu, Tao Xiang
- Abstract要約: 我々は,Samsung AI Centre Cambridge を CVPR 2020 EPIC-Kitchens Action Recognition Challenge に提出する。
この課題では、入力トリミングされたビデオクリップが与えられた1つの動詞と名詞のクラスラベルを同時に予測する問題として、行動認識が提案される。
我々のソリューションは、オブジェクト固有の推論や余分なトレーニングデータを用いることなく、課題メトリクスの強力なパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 83.57475598382146
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present the submission of Samsung AI Centre Cambridge to the CVPR2020
EPIC-Kitchens Action Recognition Challenge. In this challenge, action
recognition is posed as the problem of simultaneously predicting a single
`verb' and `noun' class label given an input trimmed video clip. That is, a
`verb' and a `noun' together define a compositional `action' class. The
challenging aspects of this real-life action recognition task include small
fast moving objects, complex hand-object interactions, and occlusions. At the
core of our submission is a recently-proposed spatial-temporal video attention
model, called `W3' (`What-Where-When') attention~\cite{perez2020knowing}. We
further introduce a simple yet effective contextual learning mechanism to model
`action' class scores directly from long-term temporal behaviour based on the
`verb' and `noun' prediction scores. Our solution achieves strong performance
on the challenge metrics without using object-specific reasoning nor extra
training data. In particular, our best solution with multimodal ensemble
achieves the 2$^{nd}$ best position for `verb', and 3$^{rd}$ best for `noun'
and `action' on the Seen Kitchens test set.
- Abstract(参考訳): 我々は,Samsung AI Centre Cambridge を CVPR2020 EPIC-Kitchens Action Recognition Challenge に提出する。
この課題では、入力トリミングされたビデオクリップを与えられた単一の「動詞」と「名詞」のクラスラベルを同時に予測する問題としてアクション認識が提案される。
すなわち `verb' と `noun' は共に構成の `action' クラスを定義する。
この実生活行動認識タスクの課題は、小さな高速移動物体、複雑なハンド・オブジェクト相互作用、およびオクルージョンである。
我々の提出の核心は、最近提案された「W3」(What-Where-When') attention~\cite{perez2020knowing}」と呼ばれる時空間ビデオアテンションモデルである。
さらに,'verb'と'noun'の予測スコアに基づいて,長期の時間行動から直接'action'クラススコアをモデル化する,シンプルかつ効果的な文脈学習機構を導入する。
我々のソリューションは、オブジェクト固有の推論や余分なトレーニングデータを用いることなく、課題メトリクスの強力なパフォーマンスを実現する。
特に、マルチモーダルアンサンブルによる最善の解は、見たキッチンテストセットの `verb' に対して 2$^{nd}$ と `noun' と `action' に対して 3$^{rd}$ が最適である。
関連論文リスト
- Multi-view Action Recognition via Directed Gromov-Wasserstein Discrepancy [12.257725479880458]
行動認識はコンピュータビジョンにおける人気のある研究トピックの1つとなっている。
本稿では,アクションビデオの2つの異なる視点から2つの注意の類似性を計算する多視点アテンション整合性手法を提案する。
我々のアプローチでは、単一ビューデータセットのトレーニングにおいて、新しいビューからの機能を暗黙的にレンダリングするために、Neural Radiance Fieldというアイデアを適用しています。
論文 参考訳(メタデータ) (2024-05-02T14:43:21Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - Free-Form Composition Networks for Egocentric Action Recognition [97.02439848145359]
本稿では,不整形動詞,前置詞,名詞表現を同時に学習できる自由形合成ネットワーク(FFCN)を提案する。
提案したFFCNは、レアクラスのトレーニングデータを直接生成できるため、動作認識性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-07-13T02:22:09Z) - Video Anomaly Detection by Solving Decoupled Spatio-Temporal Jigsaw
Puzzles [67.39567701983357]
ビデオ異常検出(VAD)はコンピュータビジョンにおいて重要なトピックである。
近年の自己教師型学習の進歩に触発された本論文は,直感的かつ難解なプレテキストタスクを解くことによって,VADに対処する。
提案手法は3つの公開ベンチマークにおいて最先端のベンチマークよりも優れている。
論文 参考訳(メタデータ) (2022-07-20T19:49:32Z) - Bridge-Prompt: Towards Ordinal Action Understanding in Instructional
Videos [92.18898962396042]
本稿では,隣接するアクション間のセマンティクスをモデル化する,プロンプトベースのフレームワークであるBridge-Promptを提案する。
我々は個々のアクションラベルを、個々のアクションセマンティクスのギャップを埋める監視のための統合テキストプロンプトとして再構成する。
Br-Promptは複数のベンチマークで最先端を達成する。
論文 参考訳(メタデータ) (2022-03-26T15:52:27Z) - Boundary-aware Self-supervised Learning for Video Scene Segmentation [20.713635723315527]
シーンセグメンテーション(英: Video scene segmentation)は、ビデオ内のシーン境界を時間的に局所化するタスクである。
本稿では,3つの境界対応プレテキストタスク,ショットシーンマッチング,コンテキストグループマッチング,擬似境界予測を紹介する。
我々はMovieNet-SSegベンチマークの最先端性を実現する。
論文 参考訳(メタデータ) (2022-01-14T02:14:07Z) - Stacked Temporal Attention: Improving First-person Action Recognition by
Emphasizing Discriminative Clips [39.29955809641396]
ファーストパーソンビデオの背景やノイズの多いフレームは、学習プロセス中にアクション認識モデルに注意をそらすことができる。
従来の研究は、時間的注意を払ってこの問題に対処しようとしたが、全ビデオのグローバルな文脈を考慮できなかった。
本稿では,ビデオクリップ間のグローバルな知識に基づいて時間的注意を計算するための,シンプルで効果的なスタックド・テンポラル・アテンション・モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-02T08:02:35Z) - A Simple Yet Effective Method for Video Temporal Grounding with
Cross-Modality Attention [31.218804432716702]
言語誘導ビデオの時間的グラウンド化の課題は、検索文に対応する特定のビデオクリップを、未トリミングビデオでローカライズすることである。
直感的な構造設計が可能な単純な2分岐クロスモダリティアテンション(CMA)モジュールを提案する。
さらに,アノテーションバイアスの影響を緩和し,時間的接地精度を向上させるタスク固有回帰損失関数を導入する。
論文 参考訳(メタデータ) (2020-09-23T16:03:00Z) - FineGym: A Hierarchical Video Dataset for Fine-grained Action
Understanding [118.32912239230272]
FineGymは体操ビデオの上に構築された新しいアクション認識データセットだ。
アクションレベルとサブアクションレベルの両方で3レベルのセマンティック階層を持つテンポラリアノテーションを提供する。
この新たな粒度レベルは、行動認識に重大な課題をもたらす。
論文 参考訳(メタデータ) (2020-04-14T17:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。