Fugu-MT 論文翻訳(概要): Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives

論文の概要: Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives

arxiv url: http://arxiv.org/abs/2311.18259v1
Date: Thu, 30 Nov 2023 05:21:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-01 17:52:44.934203
Title: Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives
Title（参考訳）: Ego-Exo4D:初対三対人の視点からの技能的活動の理解
Authors: Kristen Grauman, Andrew Westbury, Lorenzo Torresani, Kris Kitani, Jitendra Malik, Triantafyllos Afouras, Kumar Ashutosh, Vijay Baiyya, Siddhant Bansal, Bikram Boote, Eugene Byrne, Zach Chavis, Joya Chen, Feng Cheng, Fu-Jen Chu, Sean Crane, Avijit Dasgupta, Jing Dong, Maria Escobar, Cristhian Forigua, Abrham Gebreselasie, Sanjay Haresh, Jing Huang, Md Mohaiminul Islam, Suyog Jain, Rawal Khirodkar, Devansh Kukreja, Kevin J Liang, Jia-Wei Liu, Sagnik Majumder, Yongsen Mao, Miguel Martin, Effrosyni Mavroudi, Tushar Nagarajan, Francesco Ragusa, Santhosh Kumar Ramakrishnan, Luigi Seminara, Arjun Somayazulu, Yale Song, Shan Su, Zihui Xue, Edward Zhang, Jinxu Zhang, Angela Castillo, Changan Chen, Xinzhu Fu, Ryosuke Furuta, Cristina Gonzalez, Prince Gupta, Jiabo Hu, Yifei Huang, Yiming Huang, Weslie Khoo, Anush Kumar, Robert Kuo, Sach Lakhavani, Miao Liu, Mi Luo, Zhengyi Luo, Brighid Meredith, Austin Miller, Oluwatumininu Oguntola, Xiaqing Pan, Penny Peng, Shraman Pramanick, Merey Ramazanova, Fiona Ryan, Wei Shan, Kiran Somasundaram, Chenan Song, Audrey Southerland, Masatoshi Tateno, Huiyu Wang, Yuchen Wang, Takuma Yagi, Mingfei Yan, Xitong Yang, Zecheng Yu, Shengxin Cindy Zha, Chen Zhao, Ziwei Zhao, Zhifan Zhu, Jeff Zhuo, Pablo Arbelaez, Gedas Bertasius, David Crandall, Dima Damen, Jakob Engel, Giovanni Maria Farinella, Antonino Furnari, Bernard Ghanem, Judy Hoffman, C. V. Jawahar, Richard Newcombe, Hyun Soo Park, James M. Rehg, Yoichi Sato, Manolis Savva, Jianbo Shi, Mike Zheng Shou, Michael Wray
Abstract要約: Ego-Exo4Dは、熟練した人間の活動を同時に捉えたエゴセントリックでエゴセントリックなビデオを中心にしている。世界の13都市から800人以上の参加者が131の異なる自然シーンでこれらの活動を行った。
参考スコア（独自算出の注目度）: 194.4630465857545
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present Ego-Exo4D, a diverse, large-scale multimodal multiview video dataset and benchmark challenge. Ego-Exo4D centers around simultaneously-captured egocentric and exocentric video of skilled human activities (e.g., sports, music, dance, bike repair). More than 800 participants from 13 cities worldwide performed these activities in 131 different natural scene contexts, yielding long-form captures from 1 to 42 minutes each and 1,422 hours of video combined. The multimodal nature of the dataset is unprecedented: the video is accompanied by multichannel audio, eye gaze, 3D point clouds, camera poses, IMU, and multiple paired language descriptions -- including a novel "expert commentary" done by coaches and teachers and tailored to the skilled-activity domain. To push the frontier of first-person video understanding of skilled human activity, we also present a suite of benchmark tasks and their annotations, including fine-grained activity understanding, proficiency estimation, cross-view translation, and 3D hand/body pose. All resources will be open sourced to fuel new research in the community.
Abstract（参考訳）: ego-exo4dは多種多様なマルチモーダルマルチビュービデオデータセットとベンチマークチャレンジである。 Ego-Exo4Dは、熟練した人間の活動(スポーツ、音楽、ダンス、自転車修理など)を同時に捉えたエゴセントリックでエゴセントリックなビデオを中心にしている。世界の13都市から800人以上の参加者が、131の異なる自然シーンでこれらの活動を行い、それぞれ1分から42分、合計1,422時間の映像を撮影した。ビデオにはマルチチャネルオーディオ、アイアイズ、3dポイントクラウド、カメラポーズ、imu、そして複数のペアリング言語記述が含まれており、その中には教師や教師による新しい「専門的な解説」が含まれ、熟練した活動領域に合わせたものも含まれている。熟練した人間活動の一人称ビデオ理解のフロンティアを推進するために,詳細な活動理解,熟練度推定,クロスビュー翻訳,3次元手/体ポーズなど,一連のベンチマークタスクとそのアノテーションも提示する。すべてのリソースはオープンソースとして公開され、コミュニティにおける新たな研究が促進される。

関連論文リスト

HumanOmni: A Large Vision-Speech Language Model for Human-Centric Video Understanding [16.93348898548816]
ヒューマン・オムニ(Human Omni)は、オムニ・マルチモーダル(Omni-multimodal)の言語モデルである。我々は、細かなキャプションと1400万以上の指示を含む、240万以上の人間中心のビデオクリップを含むデータセットを構築した。実験では,人間中心のシーンを多種多様なタスクで扱う上で,ヒト・オムニの高度な能力を検証した。
論文参考訳（メタデータ） (2025-01-25T07:26:37Z)
Nymeria: A Massive Collection of Multimodal Egocentric Daily Motion in the Wild [66.34146236875822]
ニメリアデータセット(Nymeria dataset)は、複数のマルチモーダル・エゴセントリックなデバイスで野生で収集された、大規模で多様な、多彩な注釈付けされた人間のモーションデータセットである。合計で399Kmを走行し、50か所にわたる264人の参加者から毎日300時間の録音を1200件記録している。動作言語記述は、語彙サイズ6545の8.64万語で310.5K文を提供する。
論文参考訳（メタデータ） (2024-06-14T10:23:53Z)
EgoExoLearn: A Dataset for Bridging Asynchronous Ego- and Exo-centric View of Procedural Activities in Real World [44.34800426136217]
EgoExoLearnは、以下のプロセスで人間の実演をエミュレートするデータセットである。 EgoExoLearnには120時間にわたるエゴセントリックでデモ的なビデオデータが含まれている。クロスビューアソシエーション、クロスビューアクションプランニング、クロスビュー参照スキルアセスメントなどのベンチマークを提示する。
論文参考訳（メタデータ） (2024-03-24T15:00:44Z)
EgoHumans: An Egocentric 3D Multi-Human Benchmark [37.375846688453514]
EgoHumansは、エゴセントリックな人間の3Dポーズ推定と追跡の最先端化を図るために、新しいマルチビューマルチヒューマンビデオベンチマークである。本研究では,エゴセントリックなマルチヒューマン・ベンチマークを構築するために,新しい3Dキャプチャ・セットアップを提案する。コンシューマグレードのウェアラブルカメラ搭載メガネを、エゴセントリックな視点に活用することで、テニス、フェンシング、バレーボールなどのダイナミックな活動を捉えることができます。
論文参考訳（メタデータ） (2023-05-25T21:37:36Z)
Egocentric Video Task Translation [109.30649877677257]
EgoTask Translation (EgoT2) を提案する。EgoTask Translation (EgoT2) は,個別のタスクに最適化されたモデルの集合をとり,各タスクの出力を一度に変換し,任意のタスクやすべてのタスクのパフォーマンスを改善する。従来のトランスファーやマルチタスク学習とは異なり、EgoT2のフリップした設計では、タスク固有のバックボーンとタスクトランスレータがすべてのタスクで共有され、不均一なタスク間のシナジーを捕捉し、タスク競合を緩和する。
論文参考訳（メタデータ） (2022-12-13T00:47:13Z)
Egocentric Video-Language Pretraining [74.04740069230692]
Video-Language Pretrainingは、転送可能な表現を学習して、幅広いビデオテキストダウンストリームタスクを前進させることを目的としている。我々は、最近リリースされたEgo4Dデータセットを利用して、3方向のEgoセントリックトレーニングを開拓しました。 3つのデータセットにわたる5つのエゴセントリックなダウンストリームタスクに対して、強いパフォーマンスを示します。
論文参考訳（メタデータ） (2022-06-03T16:28:58Z)
Ego4D: Around the World in 3,000 Hours of Egocentric Video [276.1326075259486]
Ego4Dは大規模なビデオデータセットとベンチマークスイートである。世界中の74か国と9か国から、855人のユニークなカメラ着用者が捉えた数百のシナリオを、毎日3,025時間の動画で見ることができる。ビデオにはオーディオ、環境の3Dメッシュ、視線、ステレオ、および/または複数のエゴセントリックカメラからの同期ビデオが添付されている。
論文参考訳（メタデータ） (2021-10-13T22:19:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。