論文の概要: Egocentric Video-Language Pretraining @ Ego4D Challenge 2022
- arxiv url: http://arxiv.org/abs/2207.01622v1
- Date: Mon, 4 Jul 2022 12:47:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-06 15:04:15.866911
- Title: Egocentric Video-Language Pretraining @ Ego4D Challenge 2022
- Title(参考訳): Ego4D Challenge 2022
- Authors: Kevin Qinghong Lin, Alex Jinpeng Wang, Mattia Soldan, Michael Wray,
Rui Yan, Eric Zhongcong Xu, Difei Gao, Rongcheng Tu, Wenzhe Zhao, Weijie
Kong, Chengfei Cai, Hongfa Wang, Dima Damen, Bernard Ghanem, Wei Liu, Mike
Zheng Shou
- Abstract要約: Ego4D課題に対するビデオ言語事前学習ソリューション citekevin2022egovlp を提案する。
上記の3つの設計に基づいて,エゴセントリックなビデオテキスト表現を複数のビデオダウンストリームタスクに転送可能な,事前訓練されたビデオ言語モデルを開発した。
- 参考スコア(独自算出の注目度): 74.04740069230692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we propose a video-language pretraining (VLP) based solution
\cite{kevin2022egovlp} for four Ego4D challenge tasks, including Natural
Language Query (NLQ), Moment Query (MQ), Object State Change Classification
(OSCC), and PNR Localization (PNR). Especially, we exploit the recently
released Ego4D dataset \cite{grauman2021ego4d} to pioneer Egocentric VLP from
pretraining dataset, pretraining objective, and development set. Based on the
above three designs, we develop a pretrained video-language model that is able
to transfer its egocentric video-text representation or video-only
representation to several video downstream tasks. Our Egocentric VLP achieves
10.46R@1&IoU @0.3 on NLQ, 10.33 mAP on MQ, 74% Acc on OSCC, 0.67 sec error on
PNR. The code is available at https://github.com/showlab/EgoVLP.
- Abstract(参考訳): 本稿では、自然言語クエリ(NLQ)、モーメントクエリ(MQ)、オブジェクト状態変化分類(OSCC)、PNRローカライゼーション(PNR)を含む4つのEgo4D課題タスクに対して、ビデオ言語事前学習(VLP)ベースのソリューション \cite{kevin2022egovlp}を提案する。
特に、最近リリースされたEgo4Dデータセット \cite{grauman2021ego4d} を利用して、事前学習データセット、事前学習目標、開発セットからEgocentric VLPを開拓する。
上記の3つの設計に基づいて、ビデオ中心の動画テキスト表現やビデオのみの表現を複数の下流タスクに転送できる事前訓練されたビデオ言語モデルを開発する。
我々のEgocentric VLPはNLQで10.46R@1&IoU @0.3、MQで10.33mAP、OSCCで74%、PNRで0.67秒のエラーを達成した。
コードはhttps://github.com/showlab/egovlpで入手できる。
関連論文リスト
- EgoVideo: Exploring Egocentric Foundation Model and Downstream Adaptation [54.32133648259802]
CVPR 2024のEgoVis Challengesには、Ego4Dチャレンジの5トラックとEPIC-Kitchensチャレンジの3トラックが含まれています。
ビデオ言語2towerモデルを構築し,厳密に整理された自我中心型ビデオデータを活用することにより,EgoVideoという新しい基礎モデルを導入する。
このモデルは、エゴセントリックなビデオの特徴に特化して設計されており、当社のコンペティションへの強力なサポートを提供する。
論文 参考訳(メタデータ) (2024-06-26T05:01:37Z) - ObjectNLQ @ Ego4D Episodic Memory Challenge 2024 [51.57555556405898]
本稿では,CVPR 2024におけるEgo4D Episodic Memory Benchmarkの自然言語クエリトラックとゴールステップトラックについて紹介する。
どちらの課題も、テキストクエリを使って長いビデオシーケンス内のアクションをローカライズする必要がある。
我々は、オブジェクトブランチを組み込んだ新しいアプローチObjectNLQを導入し、ビデオ表現を詳細なオブジェクト情報で拡張する。
論文 参考訳(メタデータ) (2024-06-22T07:57:58Z) - HCQA @ Ego4D EgoSchema Challenge 2024 [51.57555556405898]
HCQAという,エゴセントリックなビデオ質問応答方式を提案する。
細粒度キャプション生成、コンテキスト駆動の要約、推論誘導解答の3段階で構成されている。
盲目テストセットでは、HCQAは5000以上の人間選択質問に答える精度が75%に達する。
論文 参考訳(メタデータ) (2024-06-22T07:20:39Z) - GroundNLQ @ Ego4D Natural Language Queries Challenge 2023 [73.12670280220992]
映像を正確にグラウンドするには、効果的なエゴセントリック特徴抽出器と強力なグラウンドモデルが必要である。
我々は,2段階の事前学習戦略を利用して,ビデオナレーションにおけるエゴセントリックな特徴抽出器とグラウンドングモデルを訓練する。
さらに,マルチモーダルなマルチスケールグラウンドモジュールを用いた新しいグラウンドグラウンドモデル GroundNLQ を提案する。
論文 参考訳(メタデータ) (2023-06-27T07:27:52Z) - Exploring adaptation of VideoMAE for Audio-Visual Diarization & Social @
Ego4d Looking at me Challenge [5.429147779652134]
VideoMAEは、セルフ教師付きビデオ事前トレーニングのためのデータ効率のよい事前トレーニングモデルである。
ビデオMAEから転送された表現は時空間モデルに優れていることを示す。
論文 参考訳(メタデータ) (2022-11-17T06:49:57Z) - A Simple Transformer-Based Model for Ego4D Natural Language Queries
Challenge [8.674624972031387]
本報告では,Ego4D Natural Language Queries (NLQ) Challengeへの提案について述べる。
我々のソリューションは、時間的動作の局所化に関するこれまでの研究からポイントベースのイベント表現を継承し、ビデオグラウンド化のためのTransformerベースのモデルを開発する。
ベルとホイッスルがなければ、我々の1つのモデルに基づく提出は平均12.64%のR@1を獲得し、公共のリーダーボードで第2位にランクインする。
論文 参考訳(メタデータ) (2022-11-16T06:33:37Z) - Egocentric Video-Language Pretraining @ EPIC-KITCHENS-100 Multi-Instance
Retrieval Challenge 2022 [22.299810960572348]
EPIC-KITCHENS-100 Multi-Instance Retrieval (MIR) のためのビデオ言語事前学習ソリューション citekevin2022egovlp を提案する。
ベストシングルモデルは、47.39% mAP と 61.44% nDCG のチャレンジテストセットで高い性能を得る。
論文 参考訳(メタデータ) (2022-07-04T11:32:48Z) - Egocentric Video-Language Pretraining [74.04740069230692]
Video-Language Pretrainingは、転送可能な表現を学習して、幅広いビデオテキストダウンストリームタスクを前進させることを目的としている。
我々は、最近リリースされたEgo4Dデータセットを利用して、3方向のEgoセントリックトレーニングを開拓しました。
3つのデータセットにわたる5つのエゴセントリックなダウンストリームタスクに対して、強いパフォーマンスを示します。
論文 参考訳(メタデータ) (2022-06-03T16:28:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。