Fugu-MT 論文翻訳(概要): Egocentric Video-Language Pretraining

論文の概要: Egocentric Video-Language Pretraining

arxiv url: http://arxiv.org/abs/2206.01670v1
Date: Fri, 3 Jun 2022 16:28:58 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-06 12:58:59.594377
Title: Egocentric Video-Language Pretraining
Title（参考訳）: Egocentric Video-Language Pretraining
Authors: Kevin Qinghong Lin, Alex Jinpeng Wang, Mattia Soldan, Michael Wray, Rui Yan, Eric Zhongcong Xu, Difei Gao, Rongcheng Tu, Wenzhe Zhao, Weijie Kong, Chengfei Cai, Hongfa Wang, Dima Damen, Bernard Ghanem, Wei Liu, Mike Zheng Shou
Abstract要約: Video-Language Pretrainingは、転送可能な表現を学習して、幅広いビデオテキストダウンストリームタスクを前進させることを目的としている。我々は、最近リリースされたEgo4Dデータセットを利用して、3方向のEgoセントリックトレーニングを開拓しました。 3つのデータセットにわたる5つのエゴセントリックなダウンストリームタスクに対して、強いパフォーマンスを示します。
参考スコア（独自算出の注目度）: 74.04740069230692
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Video-Language Pretraining (VLP), aiming to learn transferable representation to advance a wide range of video-text downstream tasks, has recently received increasing attention. Dominant works that achieve strong performance rely on large-scale, 3rd-person video-text datasets, such as HowTo100M. In this work, we exploit the recently released Ego4D dataset to pioneer Egocentric VLP along three directions. (i) We create EgoClip, a 1st-person video-text pretraining dataset comprising 3.8M clip-text pairs well-chosen from Ego4D, covering a large variety of human daily activities. (ii) We propose a novel pretraining objective, dubbed as EgoNCE, which adapts video-text contrastive learning to egocentric domain by mining egocentric-aware positive and negative samples. (iii) We introduce EgoMCQ, a development benchmark that is close to EgoClip and hence can support effective validation and fast exploration of our design decisions regarding EgoClip and EgoNCE. Furthermore, we demonstrate strong performance on five egocentric downstream tasks across three datasets: video-text retrieval on EPIC-KITCHENS-100; action recognition on Charades-Ego; and natural language query, moment query, and object state change classification on Ego4D challenge benchmarks. The dataset and code will be available at https://github.com/showlab/EgoVLP.
Abstract（参考訳）: 近年,動画テキスト下流タスクを広範囲に進めるため,転送可能な表現を学習することを目的としたVLP (Video-Language Pretraining) が注目されている。強力なパフォーマンスを実現する主要な作品は、howto100mのような大規模な3人称ビデオテキストデータセットに依存している。本研究では,最近リリースされた ego4d データセットを利用して 3 つの方向に沿って egocentric vlp を開拓する。 (i)ego4dから3.8mのクリップテキスト対の well-chosen からなる1人目のビデオテキストプリトレーニングデータセットであるegoclip を作成し、多種多様な人間の日常活動をカバーする。 (ii)エゴセントリック・アウェアの正と負のサンプルをマイニングすることで、ビデオテキストのコントラスト学習をエゴセントリック領域に適応させる、エゴセンスと呼ばれる新しい事前学習目標を提案する。 (iii)egoclipに近い開発ベンチマークであるegomcqを導入することで,egoclipとegonceに関する設計判断の効果的な検証と迅速な探索を支援する。さらに,EPIC-KITCHENS-100の動画テキスト検索,Charades-Egoのアクション認識,自然言語クエリ,モーメントクエリ,Ego4Dチャレンジベンチマークのオブジェクト状態変化分類という,3つのデータセットにまたがる5つのエゴセントリックなダウンストリームタスクの性能を示す。データセットとコードはhttps://github.com/showlab/EgoVLPで入手できる。

関連論文リスト

EgoTextVQA: Towards Egocentric Scene-Text Aware Video Question Answering [95.2396264550978]
シーンテキストを含むエゴセントリックなQA支援のための,斬新で厳密に構築されたベンチマークであるEgoTextVQAを紹介する。 EgoTextVQAには1.5Kのエゴビュービデオと7Kのシーンテキスト対応の質問が含まれており、屋外運転や屋内ホームキーピング活動における実際のユーザニーズを反映している。
論文参考訳（メタデータ） (2025-02-11T09:45:06Z)
EgoVid-5M: A Large-Scale Video-Action Dataset for Egocentric Video Generation [30.350824860817536]
EgoVid-5Mは、エゴ中心のビデオ生成のための最初の高品質なデータセットである。本稿では,アクション記述とキネマティック制御信号によって同時に駆動されるエゴセントリックなビデオを生成するEgoDreamerを紹介する。
論文参考訳（メタデータ） (2024-11-13T07:05:40Z)
EgoVideo: Exploring Egocentric Foundation Model and Downstream Adaptation [54.32133648259802]
CVPR 2024のEgoVis Challengesには、Ego4Dチャレンジの5トラックとEPIC-Kitchensチャレンジの3トラックが含まれています。ビデオ言語2towerモデルを構築し,厳密に整理された自我中心型ビデオデータを活用することにより,EgoVideoという新しい基礎モデルを導入する。このモデルは、エゴセントリックなビデオの特徴に特化して設計されており、当社のコンペティションへの強力なサポートを提供する。
論文参考訳（メタデータ） (2024-06-26T05:01:37Z)
EgoNCE++: Do Egocentric Video-Language Models Really Understand Hand-Object Interactions? [48.702973928321946]
我々は、EgoNCE++という新しい非対称なコントラスト対象をEgoHOIに導入する。実験の結果,EgoNCE++はオープン語彙HOI認識,マルチインスタンス検索,アクション認識タスクを著しく向上させることがわかった。
論文参考訳（メタデータ） (2024-05-28T00:27:29Z)
Retrieval-Augmented Egocentric Video Captioning [53.2951243928289]
EgoInstructor(エゴインストラクタ)は、意味的に関連する第三者の指導ビデオを自動的に検索する、検索拡張マルチモーダルキャプションモデルである。我々は、エゴセントリックでエゴセントリックなビデオ機能を引き出す新しいEgoExoNCE損失でクロスビュー検索モジュールをトレーニングし、同様のアクションを記述した共有テキスト機能にアライメントすることで、より近づいた。
論文参考訳（メタデータ） (2024-01-01T15:31:06Z)
Egocentric Video-Language Pretraining @ Ego4D Challenge 2022 [74.04740069230692]
Ego4D課題に対するビデオ言語事前学習ソリューション citekevin2022egovlp を提案する。上記の3つの設計に基づいて,エゴセントリックなビデオテキスト表現を複数のビデオダウンストリームタスクに転送可能な,事前訓練されたビデオ言語モデルを開発した。
論文参考訳（メタデータ） (2022-07-04T12:47:16Z)
Ego-Exo: Transferring Visual Representations from Third-person to First-person Videos [92.38049744463149]
大規模第3者映像データセットを用いた自己中心型映像モデルの事前訓練手法について紹介する。私たちのアイデアは、重要なエゴセントリック特性を予測する第三者ビデオから潜在信号を見つけることです。実験の結果,Ego-Exoフレームワークは標準ビデオモデルにシームレスに統合可能であることがわかった。
論文参考訳（メタデータ） (2021-04-16T06:10:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。