論文の概要: HOI4D: A 4D Egocentric Dataset for Category-Level Human-Object
Interaction
- arxiv url: http://arxiv.org/abs/2203.01577v1
- Date: Thu, 3 Mar 2022 09:02:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-04 16:13:09.902197
- Title: HOI4D: A 4D Egocentric Dataset for Category-Level Human-Object
Interaction
- Title(参考訳): HOI4D:カテゴリーレベル人間-オブジェクトインタラクションのための4Dエゴセントリックデータセット
- Authors: Yunze Liu, Yun Liu, Che Jiang, Zhoujie Fu, Kangbo Lyu, Weikang Wan,
Hao Shen, Boqiang Liang, He Wang, Li Yi
- Abstract要約: よりリッチなアノテーションを備えた大規模4DエゴセントリックデータセットであるHOI4Dを提案する。
HoI4Dは、1000の異なるオブジェクトインスタンスと対話する9人の参加者によって収集された5000を超える3M RGB-Dエゴセントリックなビデオフレームで構成されている。
詳細な分析によると、HOI4Dは既存の手法に大きな課題をもたらし、大きな研究機会を生み出している。
- 参考スコア(独自算出の注目度): 22.15217018711828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present HOI4D, a large-scale 4D egocentric dataset with rich annotations,
to catalyze the research of category-level human-object interaction. HOI4D
consists of 3M RGB-D egocentric video frames over 5000 sequences collected by 9
participants interacting with 1000 different object instances from 20
categories over 610 different indoor rooms. Frame-wise annotations for panoptic
segmentation, motion segmentation, 3D hand pose, category-level object pose and
hand action have also been provided, together with reconstructed object meshes
and scene point clouds. With HOI4D, we establish three benchmarking tasks to
promote category-level HOI from 4D visual signals including semantic
segmentation of 4D dynamic point cloud sequences, category-level object pose
tracking, and egocentric action segmentation with diverse interaction targets.
In-depth analysis shows HOI4D poses great challenges to existing methods and
produces great research opportunities. We will release the dataset soon.
- Abstract(参考訳): そこで本研究では,リッチアノテーションを用いた大規模4DエゴセントリックデータセットHOI4Dを提案する。
HOI4Dは、3M RGB-Dエゴセントリックなビデオフレームで構成され、9人の参加者が収集し、610の室内室の20のカテゴリから1000の異なるオブジェクトインスタンスと相互作用する。
また、再構成されたオブジェクトメッシュとシーンポイントクラウドとともに、3Dハンドポーズ、カテゴリレベルのオブジェクトポーズ、ハンドアクションのためのフレームワイドアノテーションも提供されている。
HOI4Dでは,4次元ダイナミックポイントクラウドシーケンスのセマンティックセグメンテーション,カテゴリレベルのオブジェクトポーズトラッキング,多種多様なインタラクションターゲットによるエゴセントリックアクションセグメンテーションを含む,4次元視覚信号からカテゴリレベルのHOIを促進する3つのベンチマークタスクを確立する。
詳細な分析によると、HOI4Dは既存の手法に大きな課題をもたらし、大きな研究機会を生み出している。
近いうちにデータセットをリリースします。
関連論文リスト
- ADL4D: Towards A Contextually Rich Dataset for 4D Activities of Daily
Living [4.221961702292134]
ADL4Dは、日々の生活活動(ADL)を行う異なる対象のセットで行動する、最大2人の被験者のデータセットである
我々のデータセットは75のシーケンスで構成されており、合計1.1MのRGB-Dフレーム、手とオブジェクトのポーズ、手ごとのきめ細かいアクションアノテーションで構成されています。
マルチビュー・マルチハンド3Dポーズ・アンノベーションのための自動システムを開発した。
論文 参考訳(メタデータ) (2024-02-27T18:51:52Z) - ParaHome: Parameterizing Everyday Home Activities Towards 3D Generative
Modeling of Human-Object Interactions [11.32229757116179]
そこで我々は,人間と物体の動的3次元運動を,共通のホーム環境内で捉えるために設計されたParaHomeシステムを紹介した。
ParaHomeシステムを利用することで、人間と物体の相互作用の大規模なデータセットを収集する。
論文 参考訳(メタデータ) (2024-01-18T18:59:58Z) - Hi4D: 4D Instance Segmentation of Close Human Interaction [32.51930800738743]
Hi4Dは、20の被験者ペア、100のシーケンス、合計11Kフレームからなる4Dテクスチャスキャンのデータセットである。
このデータセットには、2Dと3Dのリッチなインタラクション中心アノテーションと、正確に登録されたパラメトリックボディモデルが含まれている。
論文 参考訳(メタデータ) (2023-03-27T16:53:09Z) - HouseCat6D -- A Large-Scale Multi-Modal Category Level 6D Object
Perception Dataset with Household Objects in Realistic Scenarios [41.54851386729952]
新しいカテゴリレベルの6DポーズデータセットであるHouseCat6Dを紹介する。
1) ポラリメトリック RGB と Depth (RGBD+P) によるマルチモダリティ、2) フォトメトリックに挑戦する2つのカテゴリを含む10のカテゴリにわたる194の多様なオブジェクトを含み、3) エラー範囲が 1.35 mm から 1.74 mm である高品質なポーズアノテーションを提供する。
論文 参考訳(メタデータ) (2022-12-20T17:06:32Z) - Class-agnostic Reconstruction of Dynamic Objects from Videos [127.41336060616214]
動的オブジェクトをRGBDや校正ビデオから再構成するためのクラスに依存しないフレームワークであるREDOを紹介する。
我々は2つの新しいモジュールを開発し、まず、時間的視覚的手がかりを集約したピクセル整合性を持つ正準4次元暗黙関数を導入する。
第2に、時間的伝播と集約をサポートするためにオブジェクトのダイナミクスをキャプチャする4D変換モジュールを開発する。
論文 参考訳(メタデータ) (2021-12-03T18:57:47Z) - 4D-Net for Learned Multi-Modal Alignment [87.58354992455891]
本稿では,3DポイントクラウドとRGBセンシング情報を利用した3Dオブジェクト検出手法である4D-Netを提案する。
様々な特徴表現や抽象化レベルにまたがる新しい接続学習を行い、また幾何学的制約を観察することで、4D情報を組み込むことができる。
論文 参考訳(メタデータ) (2021-09-02T16:35:00Z) - D3D-HOI: Dynamic 3D Human-Object Interactions from Videos [49.38319295373466]
本稿では,D3D-HOIについて紹介する。D3D-HOIは3次元オブジェクトのポーズ,形状,動きを,人間と物体の相互作用の時,地上の真理アノテーションを付加したモノクロビデオのデータセットである。
我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。
我々は、推定された3次元人間のポーズを利用して、物体の空間的レイアウトとダイナミクスをより正確に推定する。
論文 参考訳(メタデータ) (2021-08-19T00:49:01Z) - ASOD60K: Audio-Induced Salient Object Detection in Panoramic Videos [79.05486554647918]
本研究では,パノラマビデオから有能な物体を分離する新しいタスクであるPV-SODを提案する。
既存の固定レベルやオブジェクトレベルの塩分濃度検出タスクとは対照的に,多モードの塩分濃度検出(SOD)に焦点を当てる。
AsOD60Kという,6レベル階層の4K解像度ビデオフレームを含む,最初の大規模データセットを収集する。
論文 参考訳(メタデータ) (2021-07-24T15:14:20Z) - H2O: Two Hands Manipulating Objects for First Person Interaction
Recognition [70.46638409156772]
両手操作対象のマーカーレス3Dアノテーションを用いて,エゴセントリックな対話認識のための包括的なフレームワークを提案する。
本手法は,2つの手の3次元ポーズと操作対象の6次元ポーズのアノテーションと,それぞれのフレームのインタラクションラベルを生成する。
我々のデータセットは、H2O (2 Hands and Objects)と呼ばれ、同期されたマルチビューRGB-D画像、対話ラベル、オブジェクトクラス、左右の手でのグラウンドトルース3Dポーズ、6Dオブジェクトポーズ、グラウンドトルースカメラポーズ、オブジェクトメッシュ、シーンポイントクラウドを提供する。
論文 参考訳(メタデータ) (2021-04-22T17:10:42Z) - Auto4D: Learning to Label 4D Objects from Sequential Point Clouds [89.30951657004408]
LiDAR点群から3次元空間に正確な物体軌道を生成する自動パイプラインを提案する。
鍵となるアイデアは、4Dオブジェクトラベルを2つの部分に分解することです。リジッドオブジェクトに対して時間を通して固定される3Dのオブジェクトサイズと、オブジェクトのポーズの進化を記述するモーションパスです。
安価だがノイズの多い入力を想定し,オブジェクトサイズを再推定し,動作経路を平滑化することにより,高品質な4dラベルを生成する。
論文 参考訳(メタデータ) (2021-01-17T04:23:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。