論文の概要: Ego-Exo4D: Understanding Skilled Human Activity from First- and
Third-Person Perspectives
- arxiv url: http://arxiv.org/abs/2311.18259v1
- Date: Thu, 30 Nov 2023 05:21:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 17:52:44.934203
- Title: Ego-Exo4D: Understanding Skilled Human Activity from First- and
Third-Person Perspectives
- Title(参考訳): Ego-Exo4D:初対三対人の視点からの技能的活動の理解
- Authors: Kristen Grauman, Andrew Westbury, Lorenzo Torresani, Kris Kitani,
Jitendra Malik, Triantafyllos Afouras, Kumar Ashutosh, Vijay Baiyya, Siddhant
Bansal, Bikram Boote, Eugene Byrne, Zach Chavis, Joya Chen, Feng Cheng,
Fu-Jen Chu, Sean Crane, Avijit Dasgupta, Jing Dong, Maria Escobar, Cristhian
Forigua, Abrham Gebreselasie, Sanjay Haresh, Jing Huang, Md Mohaiminul Islam,
Suyog Jain, Rawal Khirodkar, Devansh Kukreja, Kevin J Liang, Jia-Wei Liu,
Sagnik Majumder, Yongsen Mao, Miguel Martin, Effrosyni Mavroudi, Tushar
Nagarajan, Francesco Ragusa, Santhosh Kumar Ramakrishnan, Luigi Seminara,
Arjun Somayazulu, Yale Song, Shan Su, Zihui Xue, Edward Zhang, Jinxu Zhang,
Angela Castillo, Changan Chen, Xinzhu Fu, Ryosuke Furuta, Cristina Gonzalez,
Prince Gupta, Jiabo Hu, Yifei Huang, Yiming Huang, Weslie Khoo, Anush Kumar,
Robert Kuo, Sach Lakhavani, Miao Liu, Mi Luo, Zhengyi Luo, Brighid Meredith,
Austin Miller, Oluwatumininu Oguntola, Xiaqing Pan, Penny Peng, Shraman
Pramanick, Merey Ramazanova, Fiona Ryan, Wei Shan, Kiran Somasundaram, Chenan
Song, Audrey Southerland, Masatoshi Tateno, Huiyu Wang, Yuchen Wang, Takuma
Yagi, Mingfei Yan, Xitong Yang, Zecheng Yu, Shengxin Cindy Zha, Chen Zhao,
Ziwei Zhao, Zhifan Zhu, Jeff Zhuo, Pablo Arbelaez, Gedas Bertasius, David
Crandall, Dima Damen, Jakob Engel, Giovanni Maria Farinella, Antonino
Furnari, Bernard Ghanem, Judy Hoffman, C. V. Jawahar, Richard Newcombe, Hyun
Soo Park, James M. Rehg, Yoichi Sato, Manolis Savva, Jianbo Shi, Mike Zheng
Shou, Michael Wray
- Abstract要約: Ego-Exo4Dは、熟練した人間の活動を同時に捉えたエゴセントリックでエゴセントリックなビデオを中心にしている。
世界の13都市から800人以上の参加者が131の異なる自然シーンでこれらの活動を行った。
- 参考スコア(独自算出の注目度): 194.4630465857545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Ego-Exo4D, a diverse, large-scale multimodal multiview video
dataset and benchmark challenge. Ego-Exo4D centers around
simultaneously-captured egocentric and exocentric video of skilled human
activities (e.g., sports, music, dance, bike repair). More than 800
participants from 13 cities worldwide performed these activities in 131
different natural scene contexts, yielding long-form captures from 1 to 42
minutes each and 1,422 hours of video combined. The multimodal nature of the
dataset is unprecedented: the video is accompanied by multichannel audio, eye
gaze, 3D point clouds, camera poses, IMU, and multiple paired language
descriptions -- including a novel "expert commentary" done by coaches and
teachers and tailored to the skilled-activity domain. To push the frontier of
first-person video understanding of skilled human activity, we also present a
suite of benchmark tasks and their annotations, including fine-grained activity
understanding, proficiency estimation, cross-view translation, and 3D hand/body
pose. All resources will be open sourced to fuel new research in the community.
- Abstract(参考訳): ego-exo4dは多種多様なマルチモーダルマルチビュービデオデータセットとベンチマークチャレンジである。
Ego-Exo4Dは、熟練した人間の活動(スポーツ、音楽、ダンス、自転車修理など)を同時に捉えたエゴセントリックでエゴセントリックなビデオを中心にしている。
世界の13都市から800人以上の参加者が、131の異なる自然シーンでこれらの活動を行い、それぞれ1分から42分、合計1,422時間の映像を撮影した。
ビデオにはマルチチャネルオーディオ、アイアイズ、3dポイントクラウド、カメラポーズ、imu、そして複数のペアリング言語記述が含まれており、その中には教師や教師による新しい「専門的な解説」が含まれ、熟練した活動領域に合わせたものも含まれている。
熟練した人間活動の一人称ビデオ理解のフロンティアを推進するために,詳細な活動理解,熟練度推定,クロスビュー翻訳,3次元手/体ポーズなど,一連のベンチマークタスクとそのアノテーションも提示する。
すべてのリソースはオープンソースとして公開され、コミュニティにおける新たな研究が促進される。
関連論文リスト
- Nymeria: A Massive Collection of Multimodal Egocentric Daily Motion in the Wild [66.34146236875822]
ニメリアデータセット(Nymeria dataset)は、複数のマルチモーダル・エゴセントリックなデバイスで野生で収集された、大規模で多様な、多彩な注釈付けされた人間のモーションデータセットである。
合計で399Kmを走行し、50か所にわたる264人の参加者から毎日300時間の録音を1200件記録している。
動作言語記述は、語彙サイズ6545の8.64万語で310.5K文を提供する。
論文 参考訳(メタデータ) (2024-06-14T10:23:53Z) - EgoExoLearn: A Dataset for Bridging Asynchronous Ego- and Exo-centric View of Procedural Activities in Real World [44.34800426136217]
EgoExoLearnは、以下のプロセスで人間の実演をエミュレートするデータセットである。
EgoExoLearnには120時間にわたるエゴセントリックでデモ的なビデオデータが含まれている。
クロスビューアソシエーション、クロスビューアクションプランニング、クロスビュー参照スキルアセスメントなどのベンチマークを提示する。
論文 参考訳(メタデータ) (2024-03-24T15:00:44Z) - EgoHumans: An Egocentric 3D Multi-Human Benchmark [37.375846688453514]
EgoHumansは、エゴセントリックな人間の3Dポーズ推定と追跡の最先端化を図るために、新しいマルチビューマルチヒューマンビデオベンチマークである。
本研究では,エゴセントリックなマルチヒューマン・ベンチマークを構築するために,新しい3Dキャプチャ・セットアップを提案する。
コンシューマグレードのウェアラブルカメラ搭載メガネを、エゴセントリックな視点に活用することで、テニス、フェンシング、バレーボールなどのダイナミックな活動を捉えることができます。
論文 参考訳(メタデータ) (2023-05-25T21:37:36Z) - Egocentric Video Task Translation [109.30649877677257]
EgoTask Translation (EgoT2) を提案する。EgoTask Translation (EgoT2) は,個別のタスクに最適化されたモデルの集合をとり,各タスクの出力を一度に変換し,任意のタスクやすべてのタスクのパフォーマンスを改善する。
従来のトランスファーやマルチタスク学習とは異なり、EgoT2のフリップした設計では、タスク固有のバックボーンとタスクトランスレータがすべてのタスクで共有され、不均一なタスク間のシナジーを捕捉し、タスク競合を緩和する。
論文 参考訳(メタデータ) (2022-12-13T00:47:13Z) - Egocentric Video-Language Pretraining [74.04740069230692]
Video-Language Pretrainingは、転送可能な表現を学習して、幅広いビデオテキストダウンストリームタスクを前進させることを目的としている。
我々は、最近リリースされたEgo4Dデータセットを利用して、3方向のEgoセントリックトレーニングを開拓しました。
3つのデータセットにわたる5つのエゴセントリックなダウンストリームタスクに対して、強いパフォーマンスを示します。
論文 参考訳(メタデータ) (2022-06-03T16:28:58Z) - Ego4D: Around the World in 3,000 Hours of Egocentric Video [276.1326075259486]
Ego4Dは大規模なビデオデータセットとベンチマークスイートである。
世界中の74か国と9か国から、855人のユニークなカメラ着用者が捉えた数百のシナリオを、毎日3,025時間の動画で見ることができる。
ビデオにはオーディオ、環境の3Dメッシュ、視線、ステレオ、および/または複数のエゴセントリックカメラからの同期ビデオが添付されている。
論文 参考訳(メタデータ) (2021-10-13T22:19:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。