論文の概要: SAIC_Cambridge-HuPBA-FBK Submission to the EPIC-Kitchens-100 Action
Recognition Challenge 2021
- arxiv url: http://arxiv.org/abs/2110.02902v1
- Date: Wed, 6 Oct 2021 16:29:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 18:08:25.159275
- Title: SAIC_Cambridge-HuPBA-FBK Submission to the EPIC-Kitchens-100 Action
Recognition Challenge 2021
- Title(参考訳): SAIC_Cambridge-HuPBA-FBK EPIC-Kitchens-100 Action Recognition Challenge 2021参加報告
- Authors: Swathikiran Sudhakaran and Adrian Bulat and Juan-Manuel Perez-Rua and
Alex Falcon and Sergio Escalera and Oswald Lanz and Brais Martinez and
Georgios Tzimiropoulos
- Abstract要約: 本報告では,EPIC-Kitchens-100 Action Recognition Challenge 2021への提出の技術的詳細について述べる。
我々の提出は、公共のリーダーボードで見ることができ、RGBのみを使用して、44.82%のトップ1の行動認識精度を達成した。
- 参考スコア(独自算出の注目度): 80.05652375838073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This report presents the technical details of our submission to the
EPIC-Kitchens-100 Action Recognition Challenge 2021. To participate in the
challenge we deployed spatio-temporal feature extraction and aggregation models
we have developed recently: GSF and XViT. GSF is an efficient spatio-temporal
feature extracting module that can be plugged into 2D CNNs for video action
recognition. XViT is a convolution free video feature extractor based on
transformer architecture. We design an ensemble of GSF and XViT model families
with different backbones and pretraining to generate the prediction scores. Our
submission, visible on the public leaderboard, achieved a top-1 action
recognition accuracy of 44.82%, using only RGB.
- Abstract(参考訳): 本稿では,epic-kitchens-100 action recognition challenge 2021の技術的詳細を紹介する。
この課題に参加するために、私たちは最近開発したGSFとXViTという時空間の特徴抽出と集約モデルをデプロイしました。
GSFは、ビデオアクション認識のために2D CNNにプラグインできる効率的な時空間特徴抽出モジュールである。
XViTは、トランスフォーマーアーキテクチャに基づくコンボリューションフリーなビデオ特徴抽出器である。
我々は,GSFとXViTモデルファミリのアンサンブルを,異なるバックボーンと事前学習を用いて設計し,予測スコアを生成する。
我々の投稿は、公開リーダーボードに表示され、rgbのみを使用して、トップ1のアクション認識精度44.82%を達成した。
関連論文リスト
- Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - MITFAS: Mutual Information based Temporal Feature Alignment and Sampling
for Aerial Video Action Recognition [59.905048445296906]
UAVビデオにおける行動認識のための新しいアプローチを提案する。
我々は、時間領域における人間の行動や動きに対応する領域を計算・調整するために、相互情報の概念を用いる。
実際には、最先端の手法よりもTop-1の精度が18.9%向上している。
論文 参考訳(メタデータ) (2023-03-05T04:05:17Z) - It Takes Two: Masked Appearance-Motion Modeling for Self-supervised
Video Transformer Pre-training [76.69480467101143]
自己監督型ビデオトランスフォーマーの事前トレーニングは、最近マスク・アンド・予測パイプラインの恩恵を受けている。
本稿では,映像中の動きの手がかりを余分な予測対象として明示的に調査し,マスケッド・出現運動モデリングフレームワークを提案する。
一般的なビデオ表現を学習し、Kinects-400で82.3%、Something V2で71.3%、UCF101で91.5%、HMDB51で62.5%を達成する。
論文 参考訳(メタデータ) (2022-10-11T08:05:18Z) - NVIDIA-UNIBZ Submission for EPIC-KITCHENS-100 Action Anticipation
Challenge 2022 [13.603712913129506]
EPIC-Kitchen-100アクション予測課題の技術的詳細について述べる。
我々のモデリング、高次の時空変換器、エッジ学習を用いたメッセージパスニューラルネットワークはどちらも、2.5秒の推論コンテキストのみを観測し、アクション予測予測を形成するリカレントベースアーキテクチャである。
提案したトレーニングパイプラインでコンパイルされたモデルの予測スコアを平均化することにより、テストセット上で強力なパフォーマンスを実現しました。
論文 参考訳(メタデータ) (2022-06-22T06:34:58Z) - Anticipative Video Transformer [105.20878510342551]
Precipative Video Transformer (AVT) は、エンド・ツー・エンドの注意に基づくビデオモデリングアーキテクチャである。
我々は,連続した将来のフレームの特徴を予測可能なフレーム特徴エンコーダを学習しながら,ビデオシーケンスにおける次のアクションを予測するためにモデルを共同で訓練する。
論文 参考訳(メタデータ) (2021-06-03T17:57:55Z) - FBK-HUPBA Submission to the EPIC-Kitchens Action Recognition 2020
Challenge [43.8525418821458]
EPIC-Kitchens Action Recognition 2020 Challengeへの提出の技術的詳細について述べる。
提案手法は,S1では40.0%,S2では21%,RGBでは21%であった。
論文 参考訳(メタデータ) (2020-06-24T13:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。