論文の概要: EPFL-Smart-Kitchen-30: Densely annotated cooking dataset with 3D kinematics to challenge video and language models
- arxiv url: http://arxiv.org/abs/2506.01608v1
- Date: Mon, 02 Jun 2025 12:46:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.382113
- Title: EPFL-Smart-Kitchen-30: Densely annotated cooking dataset with 3D kinematics to challenge video and language models
- Title(参考訳): EPFL-Smart-Kitchen-30: ビデオと言語モデルに挑戦する3Dキネマティクスによる巧妙な注釈付き調理データセット
- Authors: Andy Bonnetto, Haozhe Qi, Franklin Leong, Matea Tashkovska, Mahdi Rad, Solaiman Shokur, Friedhelm Hummel, Silvestro Micera, Marc Pollefeys, Alexander Mathis,
- Abstract要約: キッチン環境内のモーションキャプチャプラットフォームで収集したEPFL-Smart-Kitchen-30データセットについて紹介する。
9台の静止RGB-Dカメラ、慣性測定ユニット(IMU)、ヘッドマウント型HoloLens2ヘッドセットが3D手、体、眼の動きを捉えた。
このデータセットは、シンクロナイズドエキソセントリック、エゴセントリック、深さ、IMU、視線、体、手動の4種類のレシピを調理する16人の被験者の29.7時間にわたる多視点アクションデータセットである。
- 参考スコア(独自算出の注目度): 68.96292501521827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding behavior requires datasets that capture humans while carrying out complex tasks. The kitchen is an excellent environment for assessing human motor and cognitive function, as many complex actions are naturally exhibited in kitchens from chopping to cleaning. Here, we introduce the EPFL-Smart-Kitchen-30 dataset, collected in a noninvasive motion capture platform inside a kitchen environment. Nine static RGB-D cameras, inertial measurement units (IMUs) and one head-mounted HoloLens~2 headset were used to capture 3D hand, body, and eye movements. The EPFL-Smart-Kitchen-30 dataset is a multi-view action dataset with synchronized exocentric, egocentric, depth, IMUs, eye gaze, body and hand kinematics spanning 29.7 hours of 16 subjects cooking four different recipes. Action sequences were densely annotated with 33.78 action segments per minute. Leveraging this multi-modal dataset, we propose four benchmarks to advance behavior understanding and modeling through 1) a vision-language benchmark, 2) a semantic text-to-motion generation benchmark, 3) a multi-modal action recognition benchmark, 4) a pose-based action segmentation benchmark. We expect the EPFL-Smart-Kitchen-30 dataset to pave the way for better methods as well as insights to understand the nature of ecologically-valid human behavior. Code and data are available at https://github.com/amathislab/EPFL-Smart-Kitchen
- Abstract(参考訳): 振る舞いを理解するには、複雑なタスクを実行しながら人間をキャプチャするデータセットが必要である。
キッチンは人間の運動と認知機能を評価するのに優れた環境であり、キッチンではチョッピングからクリーニングまで多くの複雑なアクションが自然に現れている。
本稿では,キッチン環境内の非侵襲的なモーションキャプチャプラットフォームで収集されたEPFL-Smart-Kitchen-30データセットを紹介する。
9台の静止RGB-Dカメラ、慣性測定ユニット(IMU)、ヘッドマウントHoloLens~2ヘッドセットが3Dの手、体、眼の動きを捉えた。
EPFL-Smart-Kitchen-30データセット(EPFL-Smart-Kitchen-30 データセット)は、4つの異なるレシピを調理する16人の被験者の29.7時間にわたる、同期された外向中心、自我中心、深度、IMU、視線、身体、手動学を備えた多視点アクションデータセットである。
アクションシーケンスには1分間に33.78のアクションセグメントが付加された。
このマルチモーダルデータセットを活用することで、行動理解とモデリングを促進する4つのベンチマークを提案する。
1)ビジョン言語ベンチマーク。
2)セマンティックテキスト・ツー・モーション生成ベンチマーク
3)マルチモーダル動作認識ベンチマーク。
4) ポーズベースのアクションセグメンテーションベンチマーク。
EPFL-Smart-Kitchen-30データセットは、より良い方法と、生態学的に有能な人間の行動の性質を理解するための洞察の道を開くことを期待する。
コードとデータはhttps://github.com/amathislab/EPFL-Smart-Kitchenで公開されている。
関連論文リスト
- HUMOTO: A 4D Dataset of Mocap Human Object Interactions [27.573065832588554]
Human Motions with Objects(ヒューマン・モーション・ウィズ・オブジェクト)は、モーション生成、コンピュータビジョン、ロボット工学応用のための人間と物体の相互作用の高忠実なデータセットである。
Humotoは、63の精度でモデル化されたオブジェクトと72の明瞭なパーツとのインタラクションをキャプチャする。
プロのアーティストは、それぞれのシーケンスを厳格に掃除し、検証し、足の滑りや物体の侵入を最小限にする。
論文 参考訳(メタデータ) (2025-04-14T16:59:29Z) - HOT3D: Hand and Object Tracking in 3D from Egocentric Multi-View Videos [9.513100627302755]
データセットには833分(3.7M+画像)以上の記録があり、19人の被験者が33の多様な剛体物体と相互作用している。
記録には、エゴセントリックなマルチビューRGB/モノクロ画像、目視信号、シーンポイント雲、カメラ、手、オブジェクトの3Dポーズを含む複数の同期データストリームが含まれている。
実験では,3次元ハンドトラッキング,モデルベース6DoFオブジェクトポーズ推定,未知のインハンドオブジェクトの3次元持ち上げという3つの一般的なタスクに対して,マルチビュー・エゴセントリックデータの有効性を実証した。
論文 参考訳(メタデータ) (2024-11-28T14:09:42Z) - Nymeria: A Massive Collection of Multimodal Egocentric Daily Motion in the Wild [66.34146236875822]
ニメリアデータセット(Nymeria dataset)は、複数のマルチモーダル・エゴセントリックなデバイスで野生で収集された、大規模で多様な、多彩な注釈付けされた人間のモーションデータセットである。
合計で399Kmを走行し、50か所にわたる264人の参加者から毎日300時間の録音を1200件記録している。
動作言語記述は、語彙サイズ6545の8.64万語で310.5K文を提供する。
論文 参考訳(メタデータ) (2024-06-14T10:23:53Z) - Introducing HOT3D: An Egocentric Dataset for 3D Hand and Object Tracking [7.443420525809604]
我々は,自我中心手と物体追跡のためのデータセットであるHOT3Dを3Dで導入する。
データセットはマルチビューのRGB/モノクロ画像ストリームを833分以上提供し、19人の被験者が33の多様な剛体オブジェクトと対話していることを示している。
単純なピックアップ/オブザーバ/プットダウンアクションに加えて、HOT3Dはキッチン、オフィス、リビングルーム環境における典型的なアクションに似たシナリオを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T21:38:17Z) - EPIC Fields: Marrying 3D Geometry and Video Understanding [76.60638761589065]
EPIC Fieldsは、EPIC-KITCHENSの3Dカメラ情報の拡張である。
これは、フォトグラムを使ってカメラを再構築する複雑で高価なステップを取り除く。
EPICKITCHENSのビデオの96%を再構築し、45のキッチンで99時間に19Mフレームを登録した。
論文 参考訳(メタデータ) (2023-06-14T20:33:49Z) - FLAG3D: A 3D Fitness Activity Dataset with Language Instruction [89.60371681477791]
FLAG3Dは,60カテゴリの180Kシーケンスを含む言語命令付き大規模3Dフィットネスアクティビティデータセットである。
FLAG3Dは、クロスドメインなヒューマンアクション認識、動的ヒューマンメッシュリカバリ、言語誘導型ヒューマンアクション生成など、さまざまな課題に対して大きな研究価値を提供する。
論文 参考訳(メタデータ) (2022-12-09T02:33:33Z) - The EPIC-KITCHENS Dataset: Collection, Challenges and Baselines [88.47608066382267]
この大規模なデータセットが、32人の参加者によって、彼らのネイティブキッチン環境でどのようにキャプチャされたか、詳しく説明します。
録音は10カ国から4カ国で行われた。
私たちのデータセットは、11.5万フレームからなる55時間のビデオで構成されており、合計39.6Kアクションセグメントと454.2Kオブジェクトバウンディングボックスを密にラベル付けしています。
論文 参考訳(メタデータ) (2020-04-29T21:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。