論文の概要: Ego4D: Around the World in 3,000 Hours of Egocentric Video
- arxiv url: http://arxiv.org/abs/2110.07058v1
- Date: Wed, 13 Oct 2021 22:19:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 12:55:26.868142
- Title: Ego4D: Around the World in 3,000 Hours of Egocentric Video
- Title(参考訳): Ego4D:エゴ中心ビデオ3000時間で世界中を回る
- Authors: Kristen Grauman, Andrew Westbury, Eugene Byrne, Zachary Chavis,
Antonino Furnari, Rohit Girdhar, Jackson Hamburger, Hao Jiang, Miao Liu,
Xingyu Liu, Miguel Martin, Tushar Nagarajan, Ilija Radosavovic, Santhosh
Kumar Ramakrishnan, Fiona Ryan, Jayant Sharma, Michael Wray, Mengmeng Xu,
Eric Zhongcong Xu, Chen Zhao, Siddhant Bansal, Dhruv Batra, Vincent
Cartillier, Sean Crane, Tien Do, Morrie Doulaty, Akshay Erapalli, Christoph
Feichtenhofer, Adriano Fragomeni, Qichen Fu, Christian Fuegen, Abrham
Gebreselasie, Cristina Gonzalez, James Hillis, Xuhua Huang, Yifei Huang,
Wenqi Jia, Weslie Khoo, Jachym Kolar, Satwik Kottur, Anurag Kumar, Federico
Landini, Chao Li, Yanghao Li, Zhenqiang Li, Karttikeya Mangalam, Raghava
Modhugu, Jonathan Munro, Tullie Murrell, Takumi Nishiyasu, Will Price, Paola
Ruiz Puentes, Merey Ramazanova, Leda Sari, Kiran Somasundaram, Audrey
Southerland, Yusuke Sugano, Ruijie Tao, Minh Vo, Yuchen Wang, Xindi Wu,
Takuma Yagi, Yunyi Zhu, Pablo Arbelaez, David Crandall, Dima Damen, Giovanni
Maria Farinella, Bernard Ghanem, Vamsi Krishna Ithapu, C. V. Jawahar, Hanbyul
Joo, Kris Kitani, Haizhou Li, Richard Newcombe, Aude Oliva, Hyun Soo Park,
James M. Rehg, Yoichi Sato, Jianbo Shi, Mike Zheng Shou, Antonio Torralba,
Lorenzo Torresani, Mingfei Yan, Jitendra Malik
- Abstract要約: Ego4Dは大規模なビデオデータセットとベンチマークスイートである。
世界中の74か国と9か国から、855人のユニークなカメラ着用者が捉えた数百のシナリオを、毎日3,025時間の動画で見ることができる。
ビデオにはオーディオ、環境の3Dメッシュ、視線、ステレオ、および/または複数のエゴセントリックカメラからの同期ビデオが添付されている。
- 参考スコア(独自算出の注目度): 276.1326075259486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Ego4D, a massive-scale egocentric video dataset and benchmark
suite. It offers 3,025 hours of daily-life activity video spanning hundreds of
scenarios (household, outdoor, workplace, leisure, etc.) captured by 855 unique
camera wearers from 74 worldwide locations and 9 different countries. The
approach to collection is designed to uphold rigorous privacy and ethics
standards with consenting participants and robust de-identification procedures
where relevant. Ego4D dramatically expands the volume of diverse egocentric
video footage publicly available to the research community. Portions of the
video are accompanied by audio, 3D meshes of the environment, eye gaze, stereo,
and/or synchronized videos from multiple egocentric cameras at the same event.
Furthermore, we present a host of new benchmark challenges centered around
understanding the first-person visual experience in the past (querying an
episodic memory), present (analyzing hand-object manipulation, audio-visual
conversation, and social interactions), and future (forecasting activities). By
publicly sharing this massive annotated dataset and benchmark suite, we aim to
push the frontier of first-person perception. Project page:
https://ego4d-data.org/
- Abstract(参考訳): Ego4Dは大規模なビデオデータセットとベンチマークスイートである。
世界の74か国と9か国から855人のユニークなカメラ使用者が撮影した数百のシナリオ(家宅、屋外、職場、レジャーなど)にまたがる、毎日3,025時間の日常活動ビデオを提供する。
収集のアプローチは、厳格なプライバシと倫理基準を守り、参加者の同意と関連する堅固な非識別手順を守ります。
ego4dは、研究コミュニティが公開している多様なエゴセントリックビデオのボリュームを劇的に拡大する。
ビデオの一部には、オーディオ、環境の3dメッシュ、目視、ステレオ、および/または複数のエゴセントリックカメラからの同期ビデオが伴っている。
さらに,過去における初対人視覚体験(エピソード記憶のクエリ),現在(手動操作,音声-視覚対話,ソーシャルインタラクション),未来(予測活動)の理解を中心に,新たなベンチマーク課題を多数提示する。
この膨大な注釈付きデータセットとベンチマークスイートを公に共有することで、私たちは一人称認識のフロンティアを推し進めることを目指している。
プロジェクトページ: https://ego4d-data.org/
関連論文リスト
- Ego-Exo4D: Understanding Skilled Human Activity from First- and
Third-Person Perspectives [194.4630465857545]
Ego-Exo4Dは、熟練した人間の活動を同時に捉えたエゴセントリックでエゴセントリックなビデオを中心にしている。
世界の13都市から800人以上の参加者が131の異なる自然シーンでこれらの活動を行った。
論文 参考訳(メタデータ) (2023-11-30T05:21:07Z) - EgoHumans: An Egocentric 3D Multi-Human Benchmark [37.375846688453514]
EgoHumansは、エゴセントリックな人間の3Dポーズ推定と追跡の最先端化を図るために、新しいマルチビューマルチヒューマンビデオベンチマークである。
本研究では,エゴセントリックなマルチヒューマン・ベンチマークを構築するために,新しい3Dキャプチャ・セットアップを提案する。
コンシューマグレードのウェアラブルカメラ搭載メガネを、エゴセントリックな視点に活用することで、テニス、フェンシング、バレーボールなどのダイナミックな活動を捉えることができます。
論文 参考訳(メタデータ) (2023-05-25T21:37:36Z) - Exploring adaptation of VideoMAE for Audio-Visual Diarization & Social @
Ego4d Looking at me Challenge [5.429147779652134]
VideoMAEは、セルフ教師付きビデオ事前トレーニングのためのデータ効率のよい事前トレーニングモデルである。
ビデオMAEから転送された表現は時空間モデルに優れていることを示す。
論文 参考訳(メタデータ) (2022-11-17T06:49:57Z) - MEVID: Multi-view Extended Videos with Identities for Video Person
Re-Identification [17.72434646703505]
本稿では,大規模ビデオパーソン再識別(ReID)のためのMulti-view Extended Videos with Identities(MEVID)データセットを提案する。
我々は,約590フレームのトラックレット8,092枚から採取した598枚の衣装を身に着けている158人のユニークな人物の身元をラベル付けした。
MEVAビデオデータセットをベースとして、人口統計学的にアメリカ大陸にバランスのとれたデータを継承する。
論文 参考訳(メタデータ) (2022-11-09T03:07:31Z) - EgoEnv: Human-centric environment representations from egocentric video [60.34649902578047]
ファースト・パーソン・ビデオでは、永続的な環境の中でカメラの着用者の活動が強調される。
現在のビデオ理解アプローチは、基礎となる物理空間から切り離された短いビデオクリップから視覚的特徴を引き出す。
本稿では、カメラ装着者の(潜在的に見えない)地域環境を予測できる表現を学習することで、自我中心の映像と環境を結びつけるアプローチを提案する。
論文 参考訳(メタデータ) (2022-07-22T22:39:57Z) - Egocentric Video-Language Pretraining [74.04740069230692]
Video-Language Pretrainingは、転送可能な表現を学習して、幅広いビデオテキストダウンストリームタスクを前進させることを目的としている。
我々は、最近リリースされたEgo4Dデータセットを利用して、3方向のEgoセントリックトレーニングを開拓しました。
3つのデータセットにわたる5つのエゴセントリックなダウンストリームタスクに対して、強いパフォーマンスを示します。
論文 参考訳(メタデータ) (2022-06-03T16:28:58Z) - Ego-Exo: Transferring Visual Representations from Third-person to
First-person Videos [92.38049744463149]
大規模第3者映像データセットを用いた自己中心型映像モデルの事前訓練手法について紹介する。
私たちのアイデアは、重要なエゴセントリック特性を予測する第三者ビデオから潜在信号を見つけることです。
実験の結果,Ego-Exoフレームワークは標準ビデオモデルにシームレスに統合可能であることがわかった。
論文 参考訳(メタデータ) (2021-04-16T06:10:10Z) - The EPIC-KITCHENS Dataset: Collection, Challenges and Baselines [88.47608066382267]
この大規模なデータセットが、32人の参加者によって、彼らのネイティブキッチン環境でどのようにキャプチャされたか、詳しく説明します。
録音は10カ国から4カ国で行われた。
私たちのデータセットは、11.5万フレームからなる55時間のビデオで構成されており、合計39.6Kアクションセグメントと454.2Kオブジェクトバウンディングボックスを密にラベル付けしています。
論文 参考訳(メタデータ) (2020-04-29T21:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。