論文の概要: Ego4D: Around the World in 3,000 Hours of Egocentric Video
- arxiv url: http://arxiv.org/abs/2110.07058v1
- Date: Wed, 13 Oct 2021 22:19:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 12:55:26.868142
- Title: Ego4D: Around the World in 3,000 Hours of Egocentric Video
- Title(参考訳): Ego4D:エゴ中心ビデオ3000時間で世界中を回る
- Authors: Kristen Grauman, Andrew Westbury, Eugene Byrne, Zachary Chavis,
Antonino Furnari, Rohit Girdhar, Jackson Hamburger, Hao Jiang, Miao Liu,
Xingyu Liu, Miguel Martin, Tushar Nagarajan, Ilija Radosavovic, Santhosh
Kumar Ramakrishnan, Fiona Ryan, Jayant Sharma, Michael Wray, Mengmeng Xu,
Eric Zhongcong Xu, Chen Zhao, Siddhant Bansal, Dhruv Batra, Vincent
Cartillier, Sean Crane, Tien Do, Morrie Doulaty, Akshay Erapalli, Christoph
Feichtenhofer, Adriano Fragomeni, Qichen Fu, Christian Fuegen, Abrham
Gebreselasie, Cristina Gonzalez, James Hillis, Xuhua Huang, Yifei Huang,
Wenqi Jia, Weslie Khoo, Jachym Kolar, Satwik Kottur, Anurag Kumar, Federico
Landini, Chao Li, Yanghao Li, Zhenqiang Li, Karttikeya Mangalam, Raghava
Modhugu, Jonathan Munro, Tullie Murrell, Takumi Nishiyasu, Will Price, Paola
Ruiz Puentes, Merey Ramazanova, Leda Sari, Kiran Somasundaram, Audrey
Southerland, Yusuke Sugano, Ruijie Tao, Minh Vo, Yuchen Wang, Xindi Wu,
Takuma Yagi, Yunyi Zhu, Pablo Arbelaez, David Crandall, Dima Damen, Giovanni
Maria Farinella, Bernard Ghanem, Vamsi Krishna Ithapu, C. V. Jawahar, Hanbyul
Joo, Kris Kitani, Haizhou Li, Richard Newcombe, Aude Oliva, Hyun Soo Park,
James M. Rehg, Yoichi Sato, Jianbo Shi, Mike Zheng Shou, Antonio Torralba,
Lorenzo Torresani, Mingfei Yan, Jitendra Malik
- Abstract要約: Ego4Dは大規模なビデオデータセットとベンチマークスイートである。
世界中の74か国と9か国から、855人のユニークなカメラ着用者が捉えた数百のシナリオを、毎日3,025時間の動画で見ることができる。
ビデオにはオーディオ、環境の3Dメッシュ、視線、ステレオ、および/または複数のエゴセントリックカメラからの同期ビデオが添付されている。
- 参考スコア(独自算出の注目度): 276.1326075259486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Ego4D, a massive-scale egocentric video dataset and benchmark
suite. It offers 3,025 hours of daily-life activity video spanning hundreds of
scenarios (household, outdoor, workplace, leisure, etc.) captured by 855 unique
camera wearers from 74 worldwide locations and 9 different countries. The
approach to collection is designed to uphold rigorous privacy and ethics
standards with consenting participants and robust de-identification procedures
where relevant. Ego4D dramatically expands the volume of diverse egocentric
video footage publicly available to the research community. Portions of the
video are accompanied by audio, 3D meshes of the environment, eye gaze, stereo,
and/or synchronized videos from multiple egocentric cameras at the same event.
Furthermore, we present a host of new benchmark challenges centered around
understanding the first-person visual experience in the past (querying an
episodic memory), present (analyzing hand-object manipulation, audio-visual
conversation, and social interactions), and future (forecasting activities). By
publicly sharing this massive annotated dataset and benchmark suite, we aim to
push the frontier of first-person perception. Project page:
https://ego4d-data.org/
- Abstract(参考訳): Ego4Dは大規模なビデオデータセットとベンチマークスイートである。
世界の74か国と9か国から855人のユニークなカメラ使用者が撮影した数百のシナリオ(家宅、屋外、職場、レジャーなど)にまたがる、毎日3,025時間の日常活動ビデオを提供する。
収集のアプローチは、厳格なプライバシと倫理基準を守り、参加者の同意と関連する堅固な非識別手順を守ります。
ego4dは、研究コミュニティが公開している多様なエゴセントリックビデオのボリュームを劇的に拡大する。
ビデオの一部には、オーディオ、環境の3dメッシュ、目視、ステレオ、および/または複数のエゴセントリックカメラからの同期ビデオが伴っている。
さらに,過去における初対人視覚体験(エピソード記憶のクエリ),現在(手動操作,音声-視覚対話,ソーシャルインタラクション),未来(予測活動)の理解を中心に,新たなベンチマーク課題を多数提示する。
この膨大な注釈付きデータセットとベンチマークスイートを公に共有することで、私たちは一人称認識のフロンティアを推し進めることを目指している。
プロジェクトページ: https://ego4d-data.org/
関連論文リスト
- Ego3DT: Tracking Every 3D Object in Ego-centric Videos [20.96550148331019]
本稿では,エゴ中心映像からの物体の3次元再構成と追跡のための新しいゼロショット手法を提案する。
Ego3DTは,エゴ環境内のオブジェクトの検出とセグメンテーション情報を最初に識別し,抽出する新しいフレームワークである。
また,エゴ中心ビデオにおける物体の3次元追跡軌道を安定的に作成するための動的階層化機構を革新した。
論文 参考訳(メタデータ) (2024-10-11T05:02:31Z) - AMEGO: Active Memory from long EGOcentric videos [26.04157621755452]
非常に長いエゴセントリックなビデオの理解を深めるための新しいアプローチであるAMEGOを紹介する。
AMEGOは、人間が単一の視聴から情報を維持する能力に触発され、一つの自我中心のビデオから自己完結した表現を構築することに焦点を当てる。
この表現はセマンティックフリーであり、視覚的コンテンツ全体を再処理することなく、複数のクエリを容易にする。
論文 参考訳(メタデータ) (2024-09-17T06:18:47Z) - EgoVideo: Exploring Egocentric Foundation Model and Downstream Adaptation [54.32133648259802]
CVPR 2024のEgoVis Challengesには、Ego4Dチャレンジの5トラックとEPIC-Kitchensチャレンジの3トラックが含まれています。
ビデオ言語2towerモデルを構築し,厳密に整理された自我中心型ビデオデータを活用することにより,EgoVideoという新しい基礎モデルを導入する。
このモデルは、エゴセントリックなビデオの特徴に特化して設計されており、当社のコンペティションへの強力なサポートを提供する。
論文 参考訳(メタデータ) (2024-06-26T05:01:37Z) - Retrieval-Augmented Egocentric Video Captioning [53.2951243928289]
EgoInstructor(エゴインストラクタ)は、意味的に関連する第三者の指導ビデオを自動的に検索する、検索拡張マルチモーダルキャプションモデルである。
我々は、エゴセントリックでエゴセントリックなビデオ機能を引き出す新しいEgoExoNCE損失でクロスビュー検索モジュールをトレーニングし、同様のアクションを記述した共有テキスト機能にアライメントすることで、より近づいた。
論文 参考訳(メタデータ) (2024-01-01T15:31:06Z) - Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives [194.06650316685798]
Ego-Exo4Dは、熟練した人間の活動を同時に捉えたエゴセントリックでエゴセントリックなビデオを中心にしている。
世界の13都市から740人の参加者が123の異なる自然環境下でこれらの活動を行った。
ビデオにはマルチチャンネルオーディオ、視線、3Dポイントクラウド、カメラポーズ、IMU、複数対の言語記述が添付されている。
論文 参考訳(メタデータ) (2023-11-30T05:21:07Z) - Exploring adaptation of VideoMAE for Audio-Visual Diarization & Social @
Ego4d Looking at me Challenge [5.429147779652134]
VideoMAEは、セルフ教師付きビデオ事前トレーニングのためのデータ効率のよい事前トレーニングモデルである。
ビデオMAEから転送された表現は時空間モデルに優れていることを示す。
論文 参考訳(メタデータ) (2022-11-17T06:49:57Z) - EgoEnv: Human-centric environment representations from egocentric video [60.34649902578047]
ファースト・パーソン・ビデオでは、永続的な環境の中でカメラの着用者の活動が強調される。
現在のビデオ理解アプローチは、基礎となる物理空間から切り離された短いビデオクリップから視覚的特徴を引き出す。
本稿では、カメラ装着者の(潜在的に見えない)地域環境を予測できる表現を学習することで、自我中心の映像と環境を結びつけるアプローチを提案する。
論文 参考訳(メタデータ) (2022-07-22T22:39:57Z) - The EPIC-KITCHENS Dataset: Collection, Challenges and Baselines [88.47608066382267]
この大規模なデータセットが、32人の参加者によって、彼らのネイティブキッチン環境でどのようにキャプチャされたか、詳しく説明します。
録音は10カ国から4カ国で行われた。
私たちのデータセットは、11.5万フレームからなる55時間のビデオで構成されており、合計39.6Kアクションセグメントと454.2Kオブジェクトバウンディングボックスを密にラベル付けしています。
論文 参考訳(メタデータ) (2020-04-29T21:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。