論文の概要: Egocentric Video-Language Pretraining @ Ego4D Challenge 2022
- arxiv url: http://arxiv.org/abs/2207.01622v1
- Date: Mon, 4 Jul 2022 12:47:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-06 15:04:15.866911
- Title: Egocentric Video-Language Pretraining @ Ego4D Challenge 2022
- Title(参考訳): Ego4D Challenge 2022
- Authors: Kevin Qinghong Lin, Alex Jinpeng Wang, Mattia Soldan, Michael Wray,
Rui Yan, Eric Zhongcong Xu, Difei Gao, Rongcheng Tu, Wenzhe Zhao, Weijie
Kong, Chengfei Cai, Hongfa Wang, Dima Damen, Bernard Ghanem, Wei Liu, Mike
Zheng Shou
- Abstract要約: Ego4D課題に対するビデオ言語事前学習ソリューション citekevin2022egovlp を提案する。
上記の3つの設計に基づいて,エゴセントリックなビデオテキスト表現を複数のビデオダウンストリームタスクに転送可能な,事前訓練されたビデオ言語モデルを開発した。
- 参考スコア(独自算出の注目度): 74.04740069230692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we propose a video-language pretraining (VLP) based solution
\cite{kevin2022egovlp} for four Ego4D challenge tasks, including Natural
Language Query (NLQ), Moment Query (MQ), Object State Change Classification
(OSCC), and PNR Localization (PNR). Especially, we exploit the recently
released Ego4D dataset \cite{grauman2021ego4d} to pioneer Egocentric VLP from
pretraining dataset, pretraining objective, and development set. Based on the
above three designs, we develop a pretrained video-language model that is able
to transfer its egocentric video-text representation or video-only
representation to several video downstream tasks. Our Egocentric VLP achieves
10.46R@1&IoU @0.3 on NLQ, 10.33 mAP on MQ, 74% Acc on OSCC, 0.67 sec error on
PNR. The code is available at https://github.com/showlab/EgoVLP.
- Abstract(参考訳): 本稿では、自然言語クエリ(NLQ)、モーメントクエリ(MQ)、オブジェクト状態変化分類(OSCC)、PNRローカライゼーション(PNR)を含む4つのEgo4D課題タスクに対して、ビデオ言語事前学習(VLP)ベースのソリューション \cite{kevin2022egovlp}を提案する。
特に、最近リリースされたEgo4Dデータセット \cite{grauman2021ego4d} を利用して、事前学習データセット、事前学習目標、開発セットからEgocentric VLPを開拓する。
上記の3つの設計に基づいて、ビデオ中心の動画テキスト表現やビデオのみの表現を複数の下流タスクに転送できる事前訓練されたビデオ言語モデルを開発する。
我々のEgocentric VLPはNLQで10.46R@1&IoU @0.3、MQで10.33mAP、OSCCで74%、PNRで0.67秒のエラーを達成した。
コードはhttps://github.com/showlab/egovlpで入手できる。
関連論文リスト
- EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the
Backbone [67.13773226242242]
ビデオ言語事前学習は、様々なビジョンや言語タスクに一般化することができる。
ビデオ言語事前学習フレームワークは、個別のビデオエンコーダと言語エンコーダを使用し、微調整時にのみタスク固有のクロスモーダル情報を学ぶ。
新たな世代のエゴセントリックなビデオ言語事前訓練は、ビデオと言語のバックボーンに直接クロスモーダル融合を組み込む。
論文 参考訳(メタデータ) (2023-07-11T17:50:15Z) - GroundNLQ @ Ego4D Natural Language Queries Challenge 2023 [73.12670280220992]
映像を正確にグラウンドするには、効果的なエゴセントリック特徴抽出器と強力なグラウンドモデルが必要である。
我々は,2段階の事前学習戦略を利用して,ビデオナレーションにおけるエゴセントリックな特徴抽出器とグラウンドングモデルを訓練する。
さらに,マルチモーダルなマルチスケールグラウンドモジュールを用いた新しいグラウンドグラウンドモデル GroundNLQ を提案する。
論文 参考訳(メタデータ) (2023-06-27T07:27:52Z) - InternVideo-Ego4D: A Pack of Champion Solutions to Ego4D Challenges [66.62885923201543]
Ego4D Challengeで5トラックにチャンピオンソリューションを提示します。
ビデオファンデーションモデルであるInternVideoを5つのEgo4Dタスクに活用しています。
InternVideo-Ego4Dは、強力な基盤モデルを下流のエゴ中心のビデオ理解タスクに適用するための効果的なパラダイムである。
論文 参考訳(メタデータ) (2022-11-17T13:45:06Z) - Exploring adaptation of VideoMAE for Audio-Visual Diarization & Social @
Ego4d Looking at me Challenge [5.429147779652134]
VideoMAEは、セルフ教師付きビデオ事前トレーニングのためのデータ効率のよい事前トレーニングモデルである。
ビデオMAEから転送された表現は時空間モデルに優れていることを示す。
論文 参考訳(メタデータ) (2022-11-17T06:49:57Z) - A Simple Transformer-Based Model for Ego4D Natural Language Queries
Challenge [8.674624972031387]
本報告では,Ego4D Natural Language Queries (NLQ) Challengeへの提案について述べる。
我々のソリューションは、時間的動作の局所化に関するこれまでの研究からポイントベースのイベント表現を継承し、ビデオグラウンド化のためのTransformerベースのモデルを開発する。
ベルとホイッスルがなければ、我々の1つのモデルに基づく提出は平均12.64%のR@1を獲得し、公共のリーダーボードで第2位にランクインする。
論文 参考訳(メタデータ) (2022-11-16T06:33:37Z) - Exploring Anchor-based Detection for Ego4D Natural Language Query [74.87656676444163]
本稿では,CVPR 2022におけるEgo4D自然言語クエリの課題について報告する。
上記の課題を解決するために,本課題の解決策を提案する。
論文 参考訳(メタデータ) (2022-08-10T14:43:37Z) - Egocentric Video-Language Pretraining @ EPIC-KITCHENS-100 Multi-Instance
Retrieval Challenge 2022 [22.299810960572348]
EPIC-KITCHENS-100 Multi-Instance Retrieval (MIR) のためのビデオ言語事前学習ソリューション citekevin2022egovlp を提案する。
ベストシングルモデルは、47.39% mAP と 61.44% nDCG のチャレンジテストセットで高い性能を得る。
論文 参考訳(メタデータ) (2022-07-04T11:32:48Z) - Egocentric Video-Language Pretraining [74.04740069230692]
Video-Language Pretrainingは、転送可能な表現を学習して、幅広いビデオテキストダウンストリームタスクを前進させることを目的としている。
我々は、最近リリースされたEgo4Dデータセットを利用して、3方向のEgoセントリックトレーニングを開拓しました。
3つのデータセットにわたる5つのエゴセントリックなダウンストリームタスクに対して、強いパフォーマンスを示します。
論文 参考訳(メタデータ) (2022-06-03T16:28:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。