論文の概要: NVIDIA-UNIBZ Submission for EPIC-KITCHENS-100 Action Anticipation
Challenge 2022
- arxiv url: http://arxiv.org/abs/2206.10869v1
- Date: Wed, 22 Jun 2022 06:34:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-23 15:37:54.805495
- Title: NVIDIA-UNIBZ Submission for EPIC-KITCHENS-100 Action Anticipation
Challenge 2022
- Title(参考訳): EPIC-KITCHENS-100アクション予測チャレンジ2022のNVIDIA-UNIBZサブミッション
- Authors: Tsung-Ming Tai, Oswald Lanz, Giuseppe Fiameni, Yi-Kwan Wong, Sze-Sen
Poon, Cheng-Kuang Lee, Ka-Chun Cheung, Simon See
- Abstract要約: EPIC-Kitchen-100アクション予測課題の技術的詳細について述べる。
我々のモデリング、高次の時空変換器、エッジ学習を用いたメッセージパスニューラルネットワークはどちらも、2.5秒の推論コンテキストのみを観測し、アクション予測予測を形成するリカレントベースアーキテクチャである。
提案したトレーニングパイプラインでコンパイルされたモデルの予測スコアを平均化することにより、テストセット上で強力なパフォーマンスを実現しました。
- 参考スコア(独自算出の注目度): 13.603712913129506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we describe the technical details of our submission for the
EPIC-Kitchen-100 action anticipation challenge. Our modelings, the higher-order
recurrent space-time transformer and the message-passing neural network with
edge learning, are both recurrent-based architectures which observe only 2.5
seconds inference context to form the action anticipation prediction. By
averaging the prediction scores from a set of models compiled with our proposed
training pipeline, we achieved strong performance on the test set, which is
19.61% overall mean top-5 recall, recorded as second place on the public
leaderboard.
- Abstract(参考訳): 本報告では,EPIC-Kitchen-100アクション予測課題に対する提案の技術的詳細について述べる。
我々のモデリングは、高次リカレント時空トランスフォーマーとエッジ学習を伴うメッセージパッシングニューラルネットワークであり、どちらも2.5秒の推論コンテキストを観測してアクション予測予測を形成するリカレントベースのアーキテクチャである。
提案したトレーニングパイプラインでコンパイルされたモデルの予測スコアを平均化することにより、テストセット上で強力なパフォーマンスを実現しました。
関連論文リスト
- VEDIT: Latent Prediction Architecture For Procedural Video Representation Learning [59.68917139718813]
そこで本研究では,市販の冷凍型ビジュアルエンコーダを用いて,予測および手続き計画において,最先端(SoTA)の性能を達成可能であることを示す。
観察されたステップから凍結したクリップレベルの埋め込みを条件付けて、目に見えないステップの動作を予測することで、予測のための堅牢な表現を学習することができる。
論文 参考訳(メタデータ) (2024-10-04T14:52:09Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - Predicting the Next Action by Modeling the Abstract Goal [18.873728614415946]
本研究では,将来の予測の不確実性を低減するために,目標情報を活用する行動予測モデルを提案する。
我々は,行動予測のための視覚的特徴の観察シーケンスに基づいて,抽象目標という新しい概念を導出する。
提案手法は,Epic-Kitchens55 (EK55), EK100, EGTEA Gaze+データセットについて,非常に困難な結果を得た。
論文 参考訳(メタデータ) (2022-09-12T06:52:42Z) - SAIC_Cambridge-HuPBA-FBK Submission to the EPIC-Kitchens-100 Action
Recognition Challenge 2021 [80.05652375838073]
本報告では,EPIC-Kitchens-100 Action Recognition Challenge 2021への提出の技術的詳細について述べる。
我々の提出は、公共のリーダーボードで見ることができ、RGBのみを使用して、44.82%のトップ1の行動認識精度を達成した。
論文 参考訳(メタデータ) (2021-10-06T16:29:47Z) - Two-Stream Consensus Network: Submission to HACS Challenge 2021
Weakly-Supervised Learning Track [78.64815984927425]
弱い監督による時間的行動ローカライゼーションの目標は、ビデオの興味ある動作を時間的に特定し、分類することである。
この課題では,2ストリームコンセンサスネットワーク(TSCN)を主要なフレームワークとして採用しています。
この課題では,本手法が今後の学術研究のベースラインとなることを期待して,第2位にランクインした。
論文 参考訳(メタデータ) (2021-06-21T03:36:36Z) - A Stronger Baseline for Ego-Centric Action Detection [38.934802199184354]
本稿では,CVPR2021ワークショップ主催のEPIC-KITCHENS-100コンペティションで使用した,エゴセントリックなビデオアクション検出手法について分析する。
我々の課題は、長い未トリミングビデオでアクションの開始時刻と終了時刻を特定し、アクションカテゴリを予測することである。
我々は、ショートデュレーションアクションに適応できる提案を生成するためにスライディングウインドウ戦略を採用する。
論文 参考訳(メタデータ) (2021-06-13T08:11:31Z) - Anticipative Video Transformer [105.20878510342551]
Precipative Video Transformer (AVT) は、エンド・ツー・エンドの注意に基づくビデオモデリングアーキテクチャである。
我々は,連続した将来のフレームの特徴を予測可能なフレーム特徴エンコーダを学習しながら,ビデオシーケンスにおける次のアクションを予測するためにモデルを共同で訓練する。
論文 参考訳(メタデータ) (2021-06-03T17:57:55Z) - FBK-HUPBA Submission to the EPIC-Kitchens Action Recognition 2020
Challenge [43.8525418821458]
EPIC-Kitchens Action Recognition 2020 Challengeへの提出の技術的詳細について述べる。
提案手法は,S1では40.0%,S2では21%,RGBでは21%であった。
論文 参考訳(メタデータ) (2020-06-24T13:41:17Z) - Rescaling Egocentric Vision [48.57283024015145]
本稿では,エゴセントリックビジョンにおける最大のデータセットであるEPIC-KITCHENSを拡張するパイプラインを紹介する。
この取り組みは、100時間20Mフレーム、700の可変長ビデオの90KアクションからなるEPIC-KITCHENS-100で頂点に達した。
EPIC-KITCHENS-100は以前のバージョンと比較して、より密度の高い(毎分54%のアクション)アクションとより完全なアクションアノテーション(+128%以上のアクションセグメント)を可能にする新しいパイプラインを使用して注釈付けされている。
論文 参考訳(メタデータ) (2020-06-23T18:28:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。