論文の概要: Where a Strong Backbone Meets Strong Features -- ActionFormer for Ego4D
Moment Queries Challenge
- arxiv url: http://arxiv.org/abs/2211.09074v1
- Date: Wed, 16 Nov 2022 17:43:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 15:49:58.735251
- Title: Where a Strong Backbone Meets Strong Features -- ActionFormer for Ego4D
Moment Queries Challenge
- Title(参考訳): 強力なバックボーンと強力な機能 - Ego4D Moment Queries ChallengeのためのActionFormer
- Authors: Fangzhou Mu, Sicheng Mo, Gillian Wang, Yin Li
- Abstract要約: 私たちはActionFormerという、時間的アクションローカライゼーションのための最先端のバックボーンと、SlowFast、Omnivore、Egoの強力なビデオ機能をベースにしています。
私たちのソリューションは、テストセットの平均mAPが21.76%で、公開リーダボードで2位にランクされています。
- 参考スコア(独自算出の注目度): 7.718326034763966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This report describes our submission to the Ego4D Moment Queries Challenge
2022. Our submission builds on ActionFormer, the state-of-the-art backbone for
temporal action localization, and a trio of strong video features from
SlowFast, Omnivore and EgoVLP. Our solution is ranked 2nd on the public
leaderboard with 21.76% average mAP on the test set, which is nearly three
times higher than the official baseline. Further, we obtain 42.54% Recall@1x at
tIoU=0.5 on the test set, outperforming the top-ranked solution by a
significant margin of 1.41 absolute percentage points. Our code is available at
https://github.com/happyharrycn/actionformer_release.
- Abstract(参考訳): 本稿では,2022年のEgo4D Moment Queries Challengeについて述べる。
我々はActionFormer、時間的アクションローカライゼーションのための最先端のバックボーン、SlowFast、Omnivore、EgoVLPの強力なビデオ機能をベースにしています。
私たちのソリューションは公開リーダボードで2位にランクされ、テストセットの平均マップは21.76%で、公式ベースラインの3倍近くになっています。
さらに,テストセット上では tiou=0.5 で 42.54% recall@1x を得ることができ,絶対パーセンテージが 1.41 という大きな差でトップランクの解を上回った。
私たちのコードはhttps://github.com/happyharrycn/actionformer_releaseで利用可能です。
関連論文リスト
- NMS Threshold matters for Ego4D Moment Queries -- 2nd place solution to
the Ego4D Moment Queries Challenge 2023 [8.674624972031387]
本報告では,Ego4D Moment Queries Challenge 2023について述べる。
私たちの提案では、時間的アクションローカライゼーションの最新のメソッドであるActionFormerを拡張しています。
私たちのソリューションは、平均mAPが26.62%、テストセットがtIoU=0.5で45.69%のRecall@1xで公開リーダボードで2位にランクされ、2023年の挑戦から強いベースラインをはるかに上回っている。
論文 参考訳(メタデータ) (2023-07-05T05:23:49Z) - GroundNLQ @ Ego4D Natural Language Queries Challenge 2023 [73.12670280220992]
映像を正確にグラウンドするには、効果的なエゴセントリック特徴抽出器と強力なグラウンドモデルが必要である。
我々は,2段階の事前学習戦略を利用して,ビデオナレーションにおけるエゴセントリックな特徴抽出器とグラウンドングモデルを訓練する。
さらに,マルチモーダルなマルチスケールグラウンドモジュールを用いた新しいグラウンドグラウンドモデル GroundNLQ を提案する。
論文 参考訳(メタデータ) (2023-06-27T07:27:52Z) - Action Sensitivity Learning for the Ego4D Episodic Memory Challenge 2023 [41.10032280192564]
本稿では、CVPR 2023のEgo4D Episodic Memory Benchmarkの2つのトラックにReLERを提出する。
この手法は提案したASL(Action Sensitivity Learning framework)を継承し,フレームの分散情報をよりよく取得する。
論文 参考訳(メタデータ) (2023-06-15T14:50:17Z) - The Runner-up Solution for YouTube-VIS Long Video Challenge 2022 [72.13080661144761]
この課題に対して,提案したオンラインビデオインスタンス分割方式IDOLを採用した。
擬似ラベルを使用して、コントラスト学習をさらに支援し、時間的に一貫したインスタンスの埋め込みを得る。
提案手法は、YouTube-VIS 2022長ビデオデータセット上で40.2 APを取得し、この課題において第2位にランクされた。
論文 参考訳(メタデータ) (2022-11-18T01:40:59Z) - ReLER@ZJU Submission to the Ego4D Moment Queries Challenge 2022 [42.02602065259257]
我々はECCV 2022のEgo4D Moment Queries ChallengeにReLER@ZJU1を提出する。
目標は、エゴセントリックなビデオで起こりうるアクティビティのすべてのインスタンスを検索し、ローカライズすることだ。
Recall@1,tIoU=0.5スコア37.24、平均mAPスコア17.67、そして3位となった。
論文 参考訳(メタデータ) (2022-11-17T14:28:31Z) - A Simple Transformer-Based Model for Ego4D Natural Language Queries
Challenge [8.674624972031387]
本報告では,Ego4D Natural Language Queries (NLQ) Challengeへの提案について述べる。
我々のソリューションは、時間的動作の局所化に関するこれまでの研究からポイントベースのイベント表現を継承し、ビデオグラウンド化のためのTransformerベースのモデルを開発する。
ベルとホイッスルがなければ、我々の1つのモデルに基づく提出は平均12.64%のR@1を獲得し、公共のリーダーボードで第2位にランクインする。
論文 参考訳(メタデータ) (2022-11-16T06:33:37Z) - Egocentric Video-Language Pretraining @ Ego4D Challenge 2022 [74.04740069230692]
Ego4D課題に対するビデオ言語事前学習ソリューション citekevin2022egovlp を提案する。
上記の3つの設計に基づいて,エゴセントリックなビデオテキスト表現を複数のビデオダウンストリームタスクに転送可能な,事前訓練されたビデオ言語モデルを開発した。
論文 参考訳(メタデータ) (2022-07-04T12:47:16Z) - Egocentric Video-Language Pretraining @ EPIC-KITCHENS-100 Multi-Instance
Retrieval Challenge 2022 [22.299810960572348]
EPIC-KITCHENS-100 Multi-Instance Retrieval (MIR) のためのビデオ言語事前学習ソリューション citekevin2022egovlp を提案する。
ベストシングルモデルは、47.39% mAP と 61.44% nDCG のチャレンジテストセットで高い性能を得る。
論文 参考訳(メタデータ) (2022-07-04T11:32:48Z) - ReLER@ZJU-Alibaba Submission to the Ego4D Natural Language Queries
Challenge 2022 [61.81899056005645]
ビデオクリップとテキストクエリが与えられた場合、この課題のゴールは、クエリに対する回答が得られるビデオクリップの時間的モーメントを見つけることである。
本稿では,言語クエリとビデオクリップの相関関係を明らかにするために,マルチスケールのクロスモーダル変換器とビデオフレームレベルのコントラスト損失を提案する。
実験の結果,本手法の有効性が示された。
論文 参考訳(メタデータ) (2022-07-01T12:48:35Z) - NTIRE 2022 Challenge on Efficient Super-Resolution: Methods and Results [279.8098140331206]
NTIRE 2022の課題は、低解像度と対応する高解像度の画像のペアに基づいて、倍率$4の入力画像を超解凍することであった。
目的は、複数の測定基準に従って測定された効率を改善するために、単一画像超解像のためのネットワークを設計することであった。
論文 参考訳(メタデータ) (2022-05-11T17:58:54Z) - Top-1 Solution of Multi-Moments in Time Challenge 2019 [56.15819266653481]
一般的な画像に基づく行動認識手法であるTRN, TSN, TSMを用いて, 実験を行った。
高速かつ正確な認識に向けて,新しい時間的インターレースネットワークを提案する。
我々は上記の全てのモデルをアンサンブルし、検証セットで67.22%、テストセットで60.77%を獲得し、最終リーダーボードで1位となった。
論文 参考訳(メタデータ) (2020-03-12T15:11:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。