論文の概要: Egocentric Video-Language Pretraining
- arxiv url: http://arxiv.org/abs/2206.01670v1
- Date: Fri, 3 Jun 2022 16:28:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-06 12:58:59.594377
- Title: Egocentric Video-Language Pretraining
- Title(参考訳): Egocentric Video-Language Pretraining
- Authors: Kevin Qinghong Lin, Alex Jinpeng Wang, Mattia Soldan, Michael Wray,
Rui Yan, Eric Zhongcong Xu, Difei Gao, Rongcheng Tu, Wenzhe Zhao, Weijie
Kong, Chengfei Cai, Hongfa Wang, Dima Damen, Bernard Ghanem, Wei Liu, Mike
Zheng Shou
- Abstract要約: Video-Language Pretrainingは、転送可能な表現を学習して、幅広いビデオテキストダウンストリームタスクを前進させることを目的としている。
我々は、最近リリースされたEgo4Dデータセットを利用して、3方向のEgoセントリックトレーニングを開拓しました。
3つのデータセットにわたる5つのエゴセントリックなダウンストリームタスクに対して、強いパフォーマンスを示します。
- 参考スコア(独自算出の注目度): 74.04740069230692
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video-Language Pretraining (VLP), aiming to learn transferable representation
to advance a wide range of video-text downstream tasks, has recently received
increasing attention. Dominant works that achieve strong performance rely on
large-scale, 3rd-person video-text datasets, such as HowTo100M. In this work,
we exploit the recently released Ego4D dataset to pioneer Egocentric VLP along
three directions. (i) We create EgoClip, a 1st-person video-text pretraining
dataset comprising 3.8M clip-text pairs well-chosen from Ego4D, covering a
large variety of human daily activities. (ii) We propose a novel pretraining
objective, dubbed as EgoNCE, which adapts video-text contrastive learning to
egocentric domain by mining egocentric-aware positive and negative samples.
(iii) We introduce EgoMCQ, a development benchmark that is close to EgoClip and
hence can support effective validation and fast exploration of our design
decisions regarding EgoClip and EgoNCE. Furthermore, we demonstrate strong
performance on five egocentric downstream tasks across three datasets:
video-text retrieval on EPIC-KITCHENS-100; action recognition on Charades-Ego;
and natural language query, moment query, and object state change
classification on Ego4D challenge benchmarks. The dataset and code will be
available at https://github.com/showlab/EgoVLP.
- Abstract(参考訳): 近年,動画テキスト下流タスクを広範囲に進めるため,転送可能な表現を学習することを目的としたVLP (Video-Language Pretraining) が注目されている。
強力なパフォーマンスを実現する主要な作品は、howto100mのような大規模な3人称ビデオテキストデータセットに依存している。
本研究では,最近リリースされた ego4d データセット を利用して 3 つの方向に沿って egocentric vlp を開拓する。
(i)ego4dから3.8mのクリップテキスト対の well-chosen からなる1人目のビデオテキストプリトレーニングデータセットであるegoclip を作成し、多種多様な人間の日常活動をカバーする。
(ii)エゴセントリック・アウェアの正と負のサンプルをマイニングすることで、ビデオテキストのコントラスト学習をエゴセントリック領域に適応させる、エゴセンスと呼ばれる新しい事前学習目標を提案する。
(iii)egoclipに近い開発ベンチマークであるegomcqを導入することで,egoclipとegonceに関する設計判断の効果的な検証と迅速な探索を支援する。
さらに,EPIC-KITCHENS-100の動画テキスト検索,Charades-Egoのアクション認識,自然言語クエリ,モーメントクエリ,Ego4Dチャレンジベンチマークのオブジェクト状態変化分類という,3つのデータセットにまたがる5つのエゴセントリックなダウンストリームタスクの性能を示す。
データセットとコードはhttps://github.com/showlab/EgoVLPで入手できる。
関連論文リスト
- Retrieval-Augmented Egocentric Video Captioning [55.96764681240016]
EgoInstructor(エゴインストラクタ)は、意味的に関連する第三者の指導ビデオを自動的に検索する、検索拡張マルチモーダルキャプションモデルである。
我々は、エゴセントリックでエゴセントリックなビデオ機能を引き寄せる新しいEgoExoNCE損失で、クロスビュー検索モジュールをトレーニングする。
論文 参考訳(メタデータ) (2024-01-01T15:31:06Z) - EgoPCA: A New Framework for Egocentric Hand-Object Interaction
Understanding [99.904140768186]
本稿では,EgoPCA(Probing, Curation and Adaption)によるEgo-HOI認識の基盤となる新しいフレームワークを提案する。
我々は、総合的なプレトレインセット、バランスの取れたテストセット、およびトレーニングファインタニング戦略を完備した新しいベースラインにコントリビュートする。
私たちは、私たちのデータと発見が、Ego-HOIの理解の新しい道を開くと信じています。
論文 参考訳(メタデータ) (2023-09-05T17:51:16Z) - EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the
Backbone [67.13773226242242]
ビデオ言語事前学習は、様々なビジョンや言語タスクに一般化することができる。
ビデオ言語事前学習フレームワークは、個別のビデオエンコーダと言語エンコーダを使用し、微調整時にのみタスク固有のクロスモーダル情報を学ぶ。
新たな世代のエゴセントリックなビデオ言語事前訓練は、ビデオと言語のバックボーンに直接クロスモーダル融合を組み込む。
論文 参考訳(メタデータ) (2023-07-11T17:50:15Z) - Exploring adaptation of VideoMAE for Audio-Visual Diarization & Social @
Ego4d Looking at me Challenge [5.429147779652134]
VideoMAEは、セルフ教師付きビデオ事前トレーニングのためのデータ効率のよい事前トレーニングモデルである。
ビデオMAEから転送された表現は時空間モデルに優れていることを示す。
論文 参考訳(メタデータ) (2022-11-17T06:49:57Z) - Egocentric Video-Language Pretraining @ Ego4D Challenge 2022 [74.04740069230692]
Ego4D課題に対するビデオ言語事前学習ソリューション citekevin2022egovlp を提案する。
上記の3つの設計に基づいて,エゴセントリックなビデオテキスト表現を複数のビデオダウンストリームタスクに転送可能な,事前訓練されたビデオ言語モデルを開発した。
論文 参考訳(メタデータ) (2022-07-04T12:47:16Z) - Egocentric Video-Language Pretraining @ EPIC-KITCHENS-100 Multi-Instance
Retrieval Challenge 2022 [22.299810960572348]
EPIC-KITCHENS-100 Multi-Instance Retrieval (MIR) のためのビデオ言語事前学習ソリューション citekevin2022egovlp を提案する。
ベストシングルモデルは、47.39% mAP と 61.44% nDCG のチャレンジテストセットで高い性能を得る。
論文 参考訳(メタデータ) (2022-07-04T11:32:48Z) - Ego-Exo: Transferring Visual Representations from Third-person to
First-person Videos [92.38049744463149]
大規模第3者映像データセットを用いた自己中心型映像モデルの事前訓練手法について紹介する。
私たちのアイデアは、重要なエゴセントリック特性を予測する第三者ビデオから潜在信号を見つけることです。
実験の結果,Ego-Exoフレームワークは標準ビデオモデルにシームレスに統合可能であることがわかった。
論文 参考訳(メタデータ) (2021-04-16T06:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。