論文の概要: HOI4D: A 4D Egocentric Dataset for Category-Level Human-Object
Interaction
- arxiv url: http://arxiv.org/abs/2203.01577v4
- Date: Wed, 3 Jan 2024 14:31:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 17:31:08.965083
- Title: HOI4D: A 4D Egocentric Dataset for Category-Level Human-Object
Interaction
- Title(参考訳): HOI4D:カテゴリーレベル人間-オブジェクトインタラクションのための4Dエゴセントリックデータセット
- Authors: Yunze Liu, Yun Liu, Che Jiang, Kangbo Lyu, Weikang Wan, Hao Shen,
Boqiang Liang, Zhoujie Fu, He Wang, Li Yi
- Abstract要約: そこで本研究では,リッチアノテーションを用いた大規模4DエゴセントリックデータセットHOI4Dを提案する。
HoI4Dは、4人の参加者が収集した4000を超える2.4M RGB-Dエゴセントリックなビデオフレームで構成され、610の異なる室内室の16のカテゴリから800の異なるオブジェクトインスタンスと相互作用する。
- 参考スコア(独自算出の注目度): 29.603580960080837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present HOI4D, a large-scale 4D egocentric dataset with rich annotations,
to catalyze the research of category-level human-object interaction. HOI4D
consists of 2.4M RGB-D egocentric video frames over 4000 sequences collected by
4 participants interacting with 800 different object instances from 16
categories over 610 different indoor rooms. Frame-wise annotations for panoptic
segmentation, motion segmentation, 3D hand pose, category-level object pose and
hand action have also been provided, together with reconstructed object meshes
and scene point clouds. With HOI4D, we establish three benchmarking tasks to
promote category-level HOI from 4D visual signals including semantic
segmentation of 4D dynamic point cloud sequences, category-level object pose
tracking, and egocentric action segmentation with diverse interaction targets.
In-depth analysis shows HOI4D poses great challenges to existing methods and
produces great research opportunities.
- Abstract(参考訳): そこで本研究では,リッチアノテーションを用いた大規模4DエゴセントリックデータセットHOI4Dを提案する。
HOI4Dは、4人の参加者が収集した4000以上のRGB-Dエゴセントリックなビデオフレームからなり、610の異なる室内室の16のカテゴリから800の異なるオブジェクトインスタンスと相互作用する。
また、再構成されたオブジェクトメッシュとシーンポイントクラウドとともに、3Dハンドポーズ、カテゴリレベルのオブジェクトポーズ、ハンドアクションのためのフレームワイドアノテーションも提供されている。
HOI4Dでは,4次元ダイナミックポイントクラウドシーケンスのセマンティックセグメンテーション,カテゴリレベルのオブジェクトポーズトラッキング,多種多様なインタラクションターゲットによるエゴセントリックアクションセグメンテーションを含む,4次元視覚信号からカテゴリレベルのHOIを促進する3つのベンチマークタスクを確立する。
詳細な分析によると、HOI4Dは既存の手法に大きな課題をもたらし、大きな研究機会を生み出している。
関連論文リスト
- 3D-Aware Instance Segmentation and Tracking in Egocentric Videos [107.10661490652822]
エゴセントリックなビデオは、3Dシーンの理解にユニークな課題を提示する。
本稿では,一対一のビデオにおけるインスタンスのセグメンテーションとトラッキングに対する新しいアプローチを提案する。
空間的および時間的手がかりを取り入れることで、最先端の2D手法と比較して優れた性能が得られる。
論文 参考訳(メタデータ) (2024-08-19T10:08:25Z) - CORE4D: A 4D Human-Object-Human Interaction Dataset for Collaborative Object REarrangement [20.520938266527438]
提案するCORE4Dは,新規な大規模4次元人物体協調物体再構成である。
現実世界で捉えた1K個の人-物-人間の動作シーケンスにより、我々は様々な新しい物体に動きを増強するための反復的な協調戦略を寄与することにより、CORE4Dを豊かにする。
CORE4Dが提供する広範囲な動きパターンから、人間と物体の相互作用を生成するための2つのタスク、すなわち人-物体の動き予測と相互作用合成をベンチマークする。
論文 参考訳(メタデータ) (2024-06-27T17:32:18Z) - 4D Panoptic Scene Graph Generation [102.22082008976228]
ダイナミックな4次元世界において知覚される生の視覚データをブリッジし,高レベルの視覚的理解を実現する新しい表現である4D Panoptic Scene Graph (PSG-4D)を紹介する。
具体的には、PSG-4Dは、リッチな4D知覚データをノードに抽象化し、正確な位置とステータス情報を持つエンティティとエッジを表現し、時間的関係をキャプチャする。
そこで我々は,PSG4DFormerを提案する。PSG4DFormerはトランスフォーマーベースのモデルで,空間分割マスクを予測し,時間軸に沿ってマスクをトラックし,対応するシーングラフを生成する。
論文 参考訳(メタデータ) (2024-05-16T17:56:55Z) - Comp4D: LLM-Guided Compositional 4D Scene Generation [65.5810466788355]
合成 4D 生成のための新しいフレームワーク Comp4D について述べる。
シーン全体の特異な4D表現を生成する従来の方法とは異なり、Comp4Dはシーン内の各4Dオブジェクトを革新的に別々に構築する。
提案手法は, 予め定義された軌道で導かれる合成スコア蒸留技術を用いている。
論文 参考訳(メタデータ) (2024-03-25T17:55:52Z) - ADL4D: Towards A Contextually Rich Dataset for 4D Activities of Daily
Living [4.221961702292134]
ADL4Dは、日々の生活活動(ADL)を行う異なる対象のセットで行動する、最大2人の被験者のデータセットである
我々のデータセットは75のシーケンスで構成されており、合計1.1MのRGB-Dフレーム、手とオブジェクトのポーズ、手ごとのきめ細かいアクションアノテーションで構成されています。
マルチビュー・マルチハンド3Dポーズ・アンノベーションのための自動システムを開発した。
論文 参考訳(メタデータ) (2024-02-27T18:51:52Z) - Hi4D: 4D Instance Segmentation of Close Human Interaction [32.51930800738743]
Hi4Dは、20の被験者ペア、100のシーケンス、合計11Kフレームからなる4Dテクスチャスキャンのデータセットである。
このデータセットには、2Dと3Dのリッチなインタラクション中心アノテーションと、正確に登録されたパラメトリックボディモデルが含まれている。
論文 参考訳(メタデータ) (2023-03-27T16:53:09Z) - HouseCat6D -- A Large-Scale Multi-Modal Category Level 6D Object
Perception Dataset with Household Objects in Realistic Scenarios [41.54851386729952]
新しいカテゴリレベルの6DポーズデータセットであるHouseCat6Dを紹介する。
1) ポラリメトリック RGB と Depth (RGBD+P) によるマルチモダリティ、2) フォトメトリックに挑戦する2つのカテゴリを含む10のカテゴリにわたる194の多様なオブジェクトを含み、3) エラー範囲が 1.35 mm から 1.74 mm である高品質なポーズアノテーションを提供する。
論文 参考訳(メタデータ) (2022-12-20T17:06:32Z) - Class-agnostic Reconstruction of Dynamic Objects from Videos [127.41336060616214]
動的オブジェクトをRGBDや校正ビデオから再構成するためのクラスに依存しないフレームワークであるREDOを紹介する。
我々は2つの新しいモジュールを開発し、まず、時間的視覚的手がかりを集約したピクセル整合性を持つ正準4次元暗黙関数を導入する。
第2に、時間的伝播と集約をサポートするためにオブジェクトのダイナミクスをキャプチャする4D変換モジュールを開発する。
論文 参考訳(メタデータ) (2021-12-03T18:57:47Z) - D3D-HOI: Dynamic 3D Human-Object Interactions from Videos [49.38319295373466]
本稿では,D3D-HOIについて紹介する。D3D-HOIは3次元オブジェクトのポーズ,形状,動きを,人間と物体の相互作用の時,地上の真理アノテーションを付加したモノクロビデオのデータセットである。
我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。
我々は、推定された3次元人間のポーズを利用して、物体の空間的レイアウトとダイナミクスをより正確に推定する。
論文 参考訳(メタデータ) (2021-08-19T00:49:01Z) - H2O: Two Hands Manipulating Objects for First Person Interaction
Recognition [70.46638409156772]
両手操作対象のマーカーレス3Dアノテーションを用いて,エゴセントリックな対話認識のための包括的なフレームワークを提案する。
本手法は,2つの手の3次元ポーズと操作対象の6次元ポーズのアノテーションと,それぞれのフレームのインタラクションラベルを生成する。
我々のデータセットは、H2O (2 Hands and Objects)と呼ばれ、同期されたマルチビューRGB-D画像、対話ラベル、オブジェクトクラス、左右の手でのグラウンドトルース3Dポーズ、6Dオブジェクトポーズ、グラウンドトルースカメラポーズ、オブジェクトメッシュ、シーンポイントクラウドを提供する。
論文 参考訳(メタデータ) (2021-04-22T17:10:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。