論文の概要: Masked Autoencoders for Egocentric Video Understanding @ Ego4D Challenge
2022
- arxiv url: http://arxiv.org/abs/2211.15286v1
- Date: Fri, 18 Nov 2022 16:05:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-04 14:34:22.918442
- Title: Masked Autoencoders for Egocentric Video Understanding @ Ego4D Challenge
2022
- Title(参考訳): egocentric video understanding @ ego4d challenge 2022のためのマスク付きオートエンコーダ
- Authors: Jiachen Lei, Shuang Ma, Zhongjie Ba, Sai Vemprala, Ashish Kapoor and
Kui Ren
- Abstract要約: 本稿では,2つのエゴセントリックビデオ理解タスクにマスク付きオートエンコーダを適用した手法と実験結果について述べる。
チーム TheSSVL では、両方のタスクで2位にランク付けしました。
私たちのコードは利用可能になります。
- 参考スコア(独自算出の注目度): 35.59465012528485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this report, we present our approach and empirical results of applying
masked autoencoders in two egocentric video understanding tasks, namely, Object
State Change Classification and PNR Temporal Localization, of Ego4D Challenge
2022. As team TheSSVL, we ranked 2nd place in both tasks. Our code will be made
available.
- Abstract(参考訳): 本稿では,Ego4D Challenge 2022の2つのエゴセントリックビデオ理解タスク,すなわちオブジェクト状態変化分類とPNR時間的局所化にマスク付きオートエンコーダを適用した手法と実験結果について述べる。
チーム TheSSVL では、両方のタスクで2位にランク付けしました。
私たちのコードは利用可能になります。
関連論文リスト
- EgoVideo: Exploring Egocentric Foundation Model and Downstream Adaptation [54.32133648259802]
CVPR 2024のEgoVis Challengesには、Ego4Dチャレンジの5トラックとEPIC-Kitchensチャレンジの3トラックが含まれています。
ビデオ言語2towerモデルを構築し,厳密に整理された自我中心型ビデオデータを活用することにより,EgoVideoという新しい基礎モデルを導入する。
このモデルは、エゴセントリックなビデオの特徴に特化して設計されており、当社のコンペティションへの強力なサポートを提供する。
論文 参考訳(メタデータ) (2024-06-26T05:01:37Z) - HCQA @ Ego4D EgoSchema Challenge 2024 [51.57555556405898]
HCQAという,エゴセントリックなビデオ質問応答方式を提案する。
細粒度キャプション生成、コンテキスト駆動の要約、推論誘導解答の3段階で構成されている。
盲目テストセットでは、HCQAは5000以上の人間選択質問に答える精度が75%に達する。
論文 参考訳(メタデータ) (2024-06-22T07:20:39Z) - InternVideo-Ego4D: A Pack of Champion Solutions to Ego4D Challenges [66.62885923201543]
Ego4D Challengeで5トラックにチャンピオンソリューションを提示します。
ビデオファンデーションモデルであるInternVideoを5つのEgo4Dタスクに活用しています。
InternVideo-Ego4Dは、強力な基盤モデルを下流のエゴ中心のビデオ理解タスクに適用するための効果的なパラダイムである。
論文 参考訳(メタデータ) (2022-11-17T13:45:06Z) - Exploring State Change Capture of Heterogeneous Backbones @ Ego4D Hands
and Objects Challenge 2022 [40.50231830741559]
提案手法はOSCCにおいて0.796の精度を実現し,PNRでは0.516の絶対時間局所化誤差を達成した。
これらの優れた結果は、Ego4D OSCC & PNR-TL Challenge 2022のリーダーボードにランクインした。
論文 参考訳(メタデータ) (2022-11-16T07:36:52Z) - Exploring Anchor-based Detection for Ego4D Natural Language Query [74.87656676444163]
本稿では,CVPR 2022におけるEgo4D自然言語クエリの課題について報告する。
上記の課題を解決するために,本課題の解決策を提案する。
論文 参考訳(メタデータ) (2022-08-10T14:43:37Z) - Object State Change Classification in Egocentric Videos using the
Divided Space-Time Attention Mechanism [14.46525612314649]
本報告では,Ego4D: Object State Change Classification Challengeへの応募について述べる。
我々はトランスフォーマーに基づくビデオ認識モデルを用いて、エゴセントリックなビデオにおけるオブジェクトの状態変化を分類するために、分割された空間時間アテンション機構を利用する。
私たちの応募は、この挑戦における2番目に良いパフォーマンスを達成します。
論文 参考訳(メタデータ) (2022-07-24T20:53:36Z) - Video Swin Transformers for Egocentric Video Understanding @ Ego4D
Challenges 2022 [6.351691358760346]
我々は,時間的局所化とオブジェクト状態変化分類のタスクのベースアーキテクチャとして,ビデオスウィントランスフォーマーを実装した。
我々の手法は両課題において競争力を発揮した。
論文 参考訳(メタデータ) (2022-07-22T20:45:05Z) - Egocentric Video-Language Pretraining @ Ego4D Challenge 2022 [74.04740069230692]
Ego4D課題に対するビデオ言語事前学習ソリューション citekevin2022egovlp を提案する。
上記の3つの設計に基づいて,エゴセントリックなビデオテキスト表現を複数のビデオダウンストリームタスクに転送可能な,事前訓練されたビデオ言語モデルを開発した。
論文 参考訳(メタデータ) (2022-07-04T12:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。