論文の概要: HD-EPIC: A Highly-Detailed Egocentric Video Dataset
- arxiv url: http://arxiv.org/abs/2502.04144v1
- Date: Thu, 06 Feb 2025 15:25:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:32:31.657908
- Title: HD-EPIC: A Highly-Detailed Egocentric Video Dataset
- Title(参考訳): HD-EPIC:高精細なエゴセントリックなビデオデータセット
- Authors: Toby Perrett, Ahmad Darkhalil, Saptarshi Sinha, Omar Emara, Sam Pollard, Kranti Parida, Kaiting Liu, Prajwal Gatti, Siddhant Bansal, Kevin Flanagan, Jacob Chalk, Zhifan Zhu, Rhodri Guerrier, Fahd Abdelazim, Bin Zhu, Davide Moltisanti, Michael Wray, Hazel Doughty, Dima Damen,
- Abstract要約: HD-EPICは、9つのキッチンで41時間のビデオで、69のレシピ、59Kの細かいアクション、51Kのオーディオイベント、20Kのオブジェクトムーブメント、37Kのオブジェクトマスクを3Dに持ち上げる。
平均して、記述されていないビデオの1分間に263のアノテーションがあります。
- 参考スコア(独自算出の注目度): 35.957563351011935
- License:
- Abstract: We present a validation dataset of newly-collected kitchen-based egocentric videos, manually annotated with highly detailed and interconnected ground-truth labels covering: recipe steps, fine-grained actions, ingredients with nutritional values, moving objects, and audio annotations. Importantly, all annotations are grounded in 3D through digital twinning of the scene, fixtures, object locations, and primed with gaze. Footage is collected from unscripted recordings in diverse home environments, making HDEPIC the first dataset collected in-the-wild but with detailed annotations matching those in controlled lab environments. We show the potential of our highly-detailed annotations through a challenging VQA benchmark of 26K questions assessing the capability to recognise recipes, ingredients, nutrition, fine-grained actions, 3D perception, object motion, and gaze direction. The powerful long-context Gemini Pro only achieves 38.5% on this benchmark, showcasing its difficulty and highlighting shortcomings in current VLMs. We additionally assess action recognition, sound recognition, and long-term video-object segmentation on HD-EPIC. HD-EPIC is 41 hours of video in 9 kitchens with digital twins of 413 kitchen fixtures, capturing 69 recipes, 59K fine-grained actions, 51K audio events, 20K object movements and 37K object masks lifted to 3D. On average, we have 263 annotations per minute of our unscripted videos.
- Abstract(参考訳): 本稿では, 調理工程, きめ細かい動作, 栄養価の成分, 移動物体, 音声アノテーションなどを含む, 高度に詳細かつ相互に相互に関連付けられた地下構造ラベルを手作業でアノテートした, キッチン型エゴセントリックビデオの検証データセットを提案する。
重要な点として、すべてのアノテーションはシーンのデジタルツインニング、フィクスチャ、オブジェクトの場所、そして目線で照らされている。
フットージは様々な家庭環境における記録から収集され、HDEPICは野生環境で収集された最初のデータセットであるが、制御された実験室環境における記録と一致する詳細なアノテーションを持つ。
VQAベンチマークでは,レシピ,食材,栄養,きめ細かい動作,3D知覚,物体の動き,視線方向の認識能力を評価する。
強力な長文のGemini Proはこのベンチマークで38.5%しか達成せず、その難しさと現在のVLMの欠点を強調している。
また,HD-EPIC上での動作認識,音声認識,長期ビデオオブジェクトのセグメンテーションについても検討した。
HD-EPICは、9つのキッチンで41時間のビデオで、69のレシピ、59Kの細かいアクション、51Kのオーディオイベント、20Kのオブジェクトムーブメント、37Kのオブジェクトマスクを3Dに持ち上げる。
平均して、記述されていないビデオの1分間に263のアノテーションがあります。
関連論文リスト
- PACE: A Large-Scale Dataset with Pose Annotations in Cluttered Environments [50.79058028754952]
PACE(Pose s in Cluttered Environments)は、散在シナリオにおけるポーズ推定手法の大規模ベンチマークである。
ベンチマークは55Kフレームで構成され、300の動画に258Kのアノテーションがあり、43のカテゴリから238のオブジェクトをカバーしている。
PACE-Simには、931オブジェクトにわたる2.4Mアノテーションを備えた100Kのフォトリアリスティックシミュレートフレームが含まれている。
論文 参考訳(メタデータ) (2023-12-23T01:38:41Z) - EPIC Fields: Marrying 3D Geometry and Video Understanding [76.60638761589065]
EPIC Fieldsは、EPIC-KITCHENSの3Dカメラ情報の拡張である。
これは、フォトグラムを使ってカメラを再構築する複雑で高価なステップを取り除く。
EPICKITCHENSのビデオの96%を再構築し、45のキッチンで99時間に19Mフレームを登録した。
論文 参考訳(メタデータ) (2023-06-14T20:33:49Z) - EPIC-KITCHENS VISOR Benchmark: VIdeo Segmentations and Object Relations [83.26326325568208]
我々は、新しいピクセルアノテーションのデータセットであるVISORと、エゴセントリックなビデオで手やアクティブなオブジェクトをセグメンテーションするためのベンチマークスイートを紹介する。
具体的には、オブジェクトが変換的相互作用を行う場合、ピクセルレベルのアノテーションの短期的および長期的整合性を保証する必要がある。
VISORは、拡張性と品質のために、部分でAI駆動のアノテーションパイプラインを導入している。
論文 参考訳(メタデータ) (2022-09-26T23:03:26Z) - Ego4D: Around the World in 3,000 Hours of Egocentric Video [276.1326075259486]
Ego4Dは大規模なビデオデータセットとベンチマークスイートである。
世界中の74か国と9か国から、855人のユニークなカメラ着用者が捉えた数百のシナリオを、毎日3,025時間の動画で見ることができる。
ビデオにはオーディオ、環境の3Dメッシュ、視線、ステレオ、および/または複数のエゴセントリックカメラからの同期ビデオが添付されている。
論文 参考訳(メタデータ) (2021-10-13T22:19:32Z) - The EPIC-KITCHENS Dataset: Collection, Challenges and Baselines [88.47608066382267]
この大規模なデータセットが、32人の参加者によって、彼らのネイティブキッチン環境でどのようにキャプチャされたか、詳しく説明します。
録音は10カ国から4カ国で行われた。
私たちのデータセットは、11.5万フレームからなる55時間のビデオで構成されており、合計39.6Kアクションセグメントと454.2Kオブジェクトバウンディングボックスを密にラベル付けしています。
論文 参考訳(メタデータ) (2020-04-29T21:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。