論文の概要: The EPIC-KITCHENS Dataset: Collection, Challenges and Baselines
- arxiv url: http://arxiv.org/abs/2005.00343v1
- Date: Wed, 29 Apr 2020 21:57:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 14:09:35.362749
- Title: The EPIC-KITCHENS Dataset: Collection, Challenges and Baselines
- Title(参考訳): EPIC-KITCHENSデータセット:コレクション,チャレンジ,ベースライン
- Authors: Dima Damen, Hazel Doughty, Giovanni Maria Farinella, Sanja Fidler,
Antonino Furnari, Evangelos Kazakos, Davide Moltisanti, Jonathan Munro, Toby
Perrett, Will Price, Michael Wray
- Abstract要約: この大規模なデータセットが、32人の参加者によって、彼らのネイティブキッチン環境でどのようにキャプチャされたか、詳しく説明します。
録音は10カ国から4カ国で行われた。
私たちのデータセットは、11.5万フレームからなる55時間のビデオで構成されており、合計39.6Kアクションセグメントと454.2Kオブジェクトバウンディングボックスを密にラベル付けしています。
- 参考スコア(独自算出の注目度): 88.47608066382267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since its introduction in 2018, EPIC-KITCHENS has attracted attention as the
largest egocentric video benchmark, offering a unique viewpoint on people's
interaction with objects, their attention, and even intention. In this paper,
we detail how this large-scale dataset was captured by 32 participants in their
native kitchen environments, and densely annotated with actions and object
interactions. Our videos depict nonscripted daily activities, as recording is
started every time a participant entered their kitchen. Recording took place in
4 countries by participants belonging to 10 different nationalities, resulting
in highly diverse kitchen habits and cooking styles. Our dataset features 55
hours of video consisting of 11.5M frames, which we densely labelled for a
total of 39.6K action segments and 454.2K object bounding boxes. Our annotation
is unique in that we had the participants narrate their own videos after
recording, thus reflecting true intention, and we crowd-sourced ground-truths
based on these. We describe our object, action and. anticipation challenges,
and evaluate several baselines over two test splits, seen and unseen kitchens.
We introduce new baselines that highlight the multimodal nature of the dataset
and the importance of explicit temporal modelling to discriminate fine-grained
actions e.g. 'closing a tap' from 'opening' it up.
- Abstract(参考訳): 2018年に導入されて以来、EPIC-KITCHENSは最もエゴセントリックなビデオベンチマークとして注目され、人々のオブジェクトとのインタラクション、注意、意図などに関するユニークな視点を提供している。
本稿では,この大規模データセットが,現地のキッチン環境において32名の参加者によってどのように捉えられ,アクションやオブジェクトインタラクションで密に注釈付けされたかを詳述する。
私たちのビデオは、参加者がキッチンに入るたびに録音が始まるので、無記述の日々の活動を描いています。
記録は10の異なる国籍の参加者によって4か国で行われ、非常に多様なキッチン習慣と料理スタイルをもたらした。
私たちのデータセットは、11.5万フレームからなる55時間のビデオで構成されており、合計39.6Kアクションセグメントと454.2Kオブジェクトバウンディングボックスを密にラベル付けしています。
私たちのアノテーションは、参加者が録画後に自身のビデオをナレーションして、真の意図を反映させるという点でユニークなものです。
対象と行動とを記述します。
2つのテスト分割(seeとunseen kitchens)で、いくつかのベースラインを評価します。
我々は、データセットのマルチモーダルな性質と明確な時間的モデリングの重要性を強調した新しいベースラインを導入し、例えば「タップを閉じる」といったきめ細かいアクションを「開ける」から識別する。
関連論文リスト
- Nymeria: A Massive Collection of Multimodal Egocentric Daily Motion in the Wild [66.34146236875822]
ニメリアデータセット(Nymeria dataset)は、複数のマルチモーダル・エゴセントリックなデバイスで野生で収集された、大規模で多様な、多彩な注釈付けされた人間のモーションデータセットである。
合計で399Kmを走行し、50か所にわたる264人の参加者から毎日300時間の録音を1200件記録している。
動作言語記述は、語彙サイズ6545の8.64万語で310.5K文を提供する。
論文 参考訳(メタデータ) (2024-06-14T10:23:53Z) - Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives [194.06650316685798]
Ego-Exo4Dは、熟練した人間の活動を同時に捉えたエゴセントリックでエゴセントリックなビデオを中心にしている。
世界の13都市から740人の参加者が123の異なる自然環境下でこれらの活動を行った。
ビデオにはマルチチャンネルオーディオ、視線、3Dポイントクラウド、カメラポーズ、IMU、複数対の言語記述が添付されている。
論文 参考訳(メタデータ) (2023-11-30T05:21:07Z) - EPIC Fields: Marrying 3D Geometry and Video Understanding [76.60638761589065]
EPIC Fieldsは、EPIC-KITCHENSの3Dカメラ情報の拡張である。
これは、フォトグラムを使ってカメラを再構築する複雑で高価なステップを取り除く。
EPICKITCHENSのビデオの96%を再構築し、45のキッチンで99時間に19Mフレームを登録した。
論文 参考訳(メタデータ) (2023-06-14T20:33:49Z) - EPIC-KITCHENS VISOR Benchmark: VIdeo Segmentations and Object Relations [83.26326325568208]
我々は、新しいピクセルアノテーションのデータセットであるVISORと、エゴセントリックなビデオで手やアクティブなオブジェクトをセグメンテーションするためのベンチマークスイートを紹介する。
具体的には、オブジェクトが変換的相互作用を行う場合、ピクセルレベルのアノテーションの短期的および長期的整合性を保証する必要がある。
VISORは、拡張性と品質のために、部分でAI駆動のアノテーションパイプラインを導入している。
論文 参考訳(メタデータ) (2022-09-26T23:03:26Z) - Ego4D: Around the World in 3,000 Hours of Egocentric Video [276.1326075259486]
Ego4Dは大規模なビデオデータセットとベンチマークスイートである。
世界中の74か国と9か国から、855人のユニークなカメラ着用者が捉えた数百のシナリオを、毎日3,025時間の動画で見ることができる。
ビデオにはオーディオ、環境の3Dメッシュ、視線、ステレオ、および/または複数のエゴセントリックカメラからの同期ビデオが添付されている。
論文 参考訳(メタデータ) (2021-10-13T22:19:32Z) - MultiSports: A Multi-Person Video Dataset of Spatio-Temporally Localized
Sports Actions [39.27858380391081]
本論文では、マルチスポーツとして作成された原子時間行動の新しいマルチパーソンデータセットを提示する。
4つのスポーツクラスを選択し、約3200のビデオクリップを収集し、37790のアクションインスタンスに907kバウンディングボックスをアノテートすることで、MultiSports v1.0のデータセットを構築します。
論文 参考訳(メタデータ) (2021-05-16T10:40:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。