論文の概要: Egocentric Video-Language Pretraining
- arxiv url: http://arxiv.org/abs/2206.01670v1
- Date: Fri, 3 Jun 2022 16:28:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-06 12:58:59.594377
- Title: Egocentric Video-Language Pretraining
- Title(参考訳): Egocentric Video-Language Pretraining
- Authors: Kevin Qinghong Lin, Alex Jinpeng Wang, Mattia Soldan, Michael Wray,
Rui Yan, Eric Zhongcong Xu, Difei Gao, Rongcheng Tu, Wenzhe Zhao, Weijie
Kong, Chengfei Cai, Hongfa Wang, Dima Damen, Bernard Ghanem, Wei Liu, Mike
Zheng Shou
- Abstract要約: Video-Language Pretrainingは、転送可能な表現を学習して、幅広いビデオテキストダウンストリームタスクを前進させることを目的としている。
我々は、最近リリースされたEgo4Dデータセットを利用して、3方向のEgoセントリックトレーニングを開拓しました。
3つのデータセットにわたる5つのエゴセントリックなダウンストリームタスクに対して、強いパフォーマンスを示します。
- 参考スコア(独自算出の注目度): 74.04740069230692
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video-Language Pretraining (VLP), aiming to learn transferable representation
to advance a wide range of video-text downstream tasks, has recently received
increasing attention. Dominant works that achieve strong performance rely on
large-scale, 3rd-person video-text datasets, such as HowTo100M. In this work,
we exploit the recently released Ego4D dataset to pioneer Egocentric VLP along
three directions. (i) We create EgoClip, a 1st-person video-text pretraining
dataset comprising 3.8M clip-text pairs well-chosen from Ego4D, covering a
large variety of human daily activities. (ii) We propose a novel pretraining
objective, dubbed as EgoNCE, which adapts video-text contrastive learning to
egocentric domain by mining egocentric-aware positive and negative samples.
(iii) We introduce EgoMCQ, a development benchmark that is close to EgoClip and
hence can support effective validation and fast exploration of our design
decisions regarding EgoClip and EgoNCE. Furthermore, we demonstrate strong
performance on five egocentric downstream tasks across three datasets:
video-text retrieval on EPIC-KITCHENS-100; action recognition on Charades-Ego;
and natural language query, moment query, and object state change
classification on Ego4D challenge benchmarks. The dataset and code will be
available at https://github.com/showlab/EgoVLP.
- Abstract(参考訳): 近年,動画テキスト下流タスクを広範囲に進めるため,転送可能な表現を学習することを目的としたVLP (Video-Language Pretraining) が注目されている。
強力なパフォーマンスを実現する主要な作品は、howto100mのような大規模な3人称ビデオテキストデータセットに依存している。
本研究では,最近リリースされた ego4d データセット を利用して 3 つの方向に沿って egocentric vlp を開拓する。
(i)ego4dから3.8mのクリップテキスト対の well-chosen からなる1人目のビデオテキストプリトレーニングデータセットであるegoclip を作成し、多種多様な人間の日常活動をカバーする。
(ii)エゴセントリック・アウェアの正と負のサンプルをマイニングすることで、ビデオテキストのコントラスト学習をエゴセントリック領域に適応させる、エゴセンスと呼ばれる新しい事前学習目標を提案する。
(iii)egoclipに近い開発ベンチマークであるegomcqを導入することで,egoclipとegonceに関する設計判断の効果的な検証と迅速な探索を支援する。
さらに,EPIC-KITCHENS-100の動画テキスト検索,Charades-Egoのアクション認識,自然言語クエリ,モーメントクエリ,Ego4Dチャレンジベンチマークのオブジェクト状態変化分類という,3つのデータセットにまたがる5つのエゴセントリックなダウンストリームタスクの性能を示す。
データセットとコードはhttps://github.com/showlab/EgoVLPで入手できる。
関連論文リスト
- EgoVid-5M: A Large-Scale Video-Action Dataset for Egocentric Video Generation [30.350824860817536]
EgoVid-5Mは、エゴ中心のビデオ生成のための最初の高品質なデータセットである。
本稿では,アクション記述とキネマティック制御信号によって同時に駆動されるエゴセントリックなビデオを生成するEgoDreamerを紹介する。
論文 参考訳(メタデータ) (2024-11-13T07:05:40Z) - EgoVideo: Exploring Egocentric Foundation Model and Downstream Adaptation [54.32133648259802]
CVPR 2024のEgoVis Challengesには、Ego4Dチャレンジの5トラックとEPIC-Kitchensチャレンジの3トラックが含まれています。
ビデオ言語2towerモデルを構築し,厳密に整理された自我中心型ビデオデータを活用することにより,EgoVideoという新しい基礎モデルを導入する。
このモデルは、エゴセントリックなビデオの特徴に特化して設計されており、当社のコンペティションへの強力なサポートを提供する。
論文 参考訳(メタデータ) (2024-06-26T05:01:37Z) - Do Egocentric Video-Language Models Truly Understand Hand-Object Interactions? [48.702973928321946]
Egocentric Video-Language Pretrainingは、一対一のシナリオにおける手動対話の理解を促進するための重要なステップである。
既存のテストベッドでの成功にもかかわらず、現在のEgoVLMは簡単な修正によって容易に誤認できることがわかった。
EgoVLMは手動オブジェクトの相互作用を本当に理解していますか?
論文 参考訳(メタデータ) (2024-05-28T00:27:29Z) - Retrieval-Augmented Egocentric Video Captioning [53.2951243928289]
EgoInstructor(エゴインストラクタ)は、意味的に関連する第三者の指導ビデオを自動的に検索する、検索拡張マルチモーダルキャプションモデルである。
我々は、エゴセントリックでエゴセントリックなビデオ機能を引き出す新しいEgoExoNCE損失でクロスビュー検索モジュールをトレーニングし、同様のアクションを記述した共有テキスト機能にアライメントすることで、より近づいた。
論文 参考訳(メタデータ) (2024-01-01T15:31:06Z) - Egocentric Video-Language Pretraining @ Ego4D Challenge 2022 [74.04740069230692]
Ego4D課題に対するビデオ言語事前学習ソリューション citekevin2022egovlp を提案する。
上記の3つの設計に基づいて,エゴセントリックなビデオテキスト表現を複数のビデオダウンストリームタスクに転送可能な,事前訓練されたビデオ言語モデルを開発した。
論文 参考訳(メタデータ) (2022-07-04T12:47:16Z) - Ego-Exo: Transferring Visual Representations from Third-person to
First-person Videos [92.38049744463149]
大規模第3者映像データセットを用いた自己中心型映像モデルの事前訓練手法について紹介する。
私たちのアイデアは、重要なエゴセントリック特性を予測する第三者ビデオから潜在信号を見つけることです。
実験の結果,Ego-Exoフレームワークは標準ビデオモデルにシームレスに統合可能であることがわかった。
論文 参考訳(メタデータ) (2021-04-16T06:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。