Fugu-MT 論文翻訳(概要): HOI4D: A 4D Egocentric Dataset for Category-Level Human-Object Interaction

論文の概要: HOI4D: A 4D Egocentric Dataset for Category-Level Human-Object Interaction

arxiv url: http://arxiv.org/abs/2203.01577v1
Date: Thu, 3 Mar 2022 09:02:52 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-04 16:13:09.902197
Title: HOI4D: A 4D Egocentric Dataset for Category-Level Human-Object Interaction
Title（参考訳）: HOI4D:カテゴリーレベル人間-オブジェクトインタラクションのための4Dエゴセントリックデータセット
Authors: Yunze Liu, Yun Liu, Che Jiang, Zhoujie Fu, Kangbo Lyu, Weikang Wan, Hao Shen, Boqiang Liang, He Wang, Li Yi
Abstract要約: よりリッチなアノテーションを備えた大規模4DエゴセントリックデータセットであるHOI4Dを提案する。 HoI4Dは、1000の異なるオブジェクトインスタンスと対話する9人の参加者によって収集された5000を超える3M RGB-Dエゴセントリックなビデオフレームで構成されている。詳細な分析によると、HOI4Dは既存の手法に大きな課題をもたらし、大きな研究機会を生み出している。
参考スコア（独自算出の注目度）: 22.15217018711828
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present HOI4D, a large-scale 4D egocentric dataset with rich annotations, to catalyze the research of category-level human-object interaction. HOI4D consists of 3M RGB-D egocentric video frames over 5000 sequences collected by 9 participants interacting with 1000 different object instances from 20 categories over 610 different indoor rooms. Frame-wise annotations for panoptic segmentation, motion segmentation, 3D hand pose, category-level object pose and hand action have also been provided, together with reconstructed object meshes and scene point clouds. With HOI4D, we establish three benchmarking tasks to promote category-level HOI from 4D visual signals including semantic segmentation of 4D dynamic point cloud sequences, category-level object pose tracking, and egocentric action segmentation with diverse interaction targets. In-depth analysis shows HOI4D poses great challenges to existing methods and produces great research opportunities. We will release the dataset soon.
Abstract（参考訳）: そこで本研究では,リッチアノテーションを用いた大規模4DエゴセントリックデータセットHOI4Dを提案する。 HOI4Dは、3M RGB-Dエゴセントリックなビデオフレームで構成され、9人の参加者が収集し、610の室内室の20のカテゴリから1000の異なるオブジェクトインスタンスと相互作用する。また、再構成されたオブジェクトメッシュとシーンポイントクラウドとともに、3Dハンドポーズ、カテゴリレベルのオブジェクトポーズ、ハンドアクションのためのフレームワイドアノテーションも提供されている。 HOI4Dでは,4次元ダイナミックポイントクラウドシーケンスのセマンティックセグメンテーション,カテゴリレベルのオブジェクトポーズトラッキング,多種多様なインタラクションターゲットによるエゴセントリックアクションセグメンテーションを含む,4次元視覚信号からカテゴリレベルのHOIを促進する3つのベンチマークタスクを確立する。詳細な分析によると、HOI4Dは既存の手法に大きな課題をもたらし、大きな研究機会を生み出している。近いうちにデータセットをリリースします。

関連論文リスト

Articulated 3D Scene Graphs for Open-World Mobile Manipulation [55.97942733699124]
本報告では, セマンティックな3次元シーングラフを構築するためのフレームワークであるMoMa-SGについて述べる。新たな統合的ツイスト推定法を用いて調音モデルを推定する。また,Arti4D-Semanticデータセットについても紹介する。
論文参考訳（メタデータ） (2026-02-18T10:40:35Z)
CARI4D: Category Agnostic 4D Reconstruction of Human-Object Interaction [40.557276644446475]
本稿では,モノクロRGBビデオから,空間的かつ一時的に一貫した4次元物体間相互作用を定量的に再現する最初のカテゴリー別手法であるCARI4Dを提案する。我々のモデルは、トレーニングカテゴリを超えて一般化し、非ショットのインターネットビデオに適用することができる。
論文参考訳（メタデータ） (2025-12-12T19:11:11Z)
Inferring Compositional 4D Scenes without Ever Seeing One [58.81854043690171]
本研究では、4D/3Dオブジェクトの構造と時間的構成を一貫して予測する手法を提案する。本研究では,2次元ビデオ入力における空間的,時間的注意を慎重に設計したトレーニングによってこれを実現した。空間的推論と時間的推論を交互に行うことで、COM4Dは完成したシーンと構成されたシーンを再構築する。
論文参考訳（メタデータ） (2025-12-04T21:51:47Z)
C4D: 4D Made from 3D through Dual Correspondences [77.04731692213663]
時間的対応を利用して既存の3次元再構成を4Dに拡張するフレームワークであるC4Dを紹介する。 C4Dは、短期光学フローと長期点追跡の2種類の対応をキャプチャする。我々は、追加の移動情報を提供する動的認識ポイントトラッカーを訓練する。
論文参考訳（メタデータ） (2025-10-16T17:59:06Z)
Reconstructing 4D Spatial Intelligence: A Survey [57.8684548664209]
視覚観測から4D空間インテリジェンスを再構築することは、長い間、コンピュータビジョンにおける中心的かつ困難な課題であった。我々は,既存の手法を5つの段階の4次元空間知能に整理する新たな視点を提案する。
論文参考訳（メタデータ） (2025-07-28T17:59:02Z)
MUVOD: A Novel Multi-view Video Object Segmentation Dataset and A Benchmark for 3D Segmentation [3.229267555477331]
MUVODは、再構成現実シナリオにおけるオブジェクトセグメンテーションのトレーニングと評価のための、新しいマルチビュービデオデータセットである。各シーンは最低9ビュー、最大46ビューを含む。 7830枚のRGB画像に対応するセグメンテーションマスクを4Dモーションで表示し、シーンへの関心の対象は、あるビューの時間的フレームや、同じカメラリグに属する異なるビューにまたがって追跡することができる。
論文参考訳（メタデータ） (2025-07-10T08:07:59Z)
Uni4D: A Unified Self-Supervised Learning Framework for Point Cloud Videos [70.07088203106443]
既存の手法は運動を学ぶための明示的な知識に依存しており、結果として準最適表現をもたらす。 Masked Autoentangler (MAE)フレームワークは、4Dデータにおける低レベルの幾何学と高レベルのダイナミックスの間のギャップを埋めるのに苦労している。本稿では,表現的,識別的,移動可能な4次元表現を学習するための,新しい自己異方性MAEを提案する。
論文参考訳（メタデータ） (2025-04-07T08:47:36Z)
WideRange4D: Enabling High-Quality 4D Reconstruction with Wide-Range Movements and Scenes [65.76371201992654]
そこで本研究では,新しい4D再構成ベンチマークであるWideRange4Dを提案する。このベンチマークには、空間変動が大きいリッチな4Dシーンデータが含まれており、より包括的な4D生成手法の生成能力を評価できる。また,様々な複雑な4Dシーン再構成タスクに対して,安定かつ高品質な4D結果を生成する新しい4D再構成手法であるProgress4Dを導入する。
論文参考訳（メタデータ） (2025-03-17T17:58:18Z)
HOT3D: Hand and Object Tracking in 3D from Egocentric Multi-View Videos [9.513100627302755]
データセットには833分(3.7M+画像)以上の記録があり、19人の被験者が33の多様な剛体物体と相互作用している。記録には、エゴセントリックなマルチビューRGB/モノクロ画像、目視信号、シーンポイント雲、カメラ、手、オブジェクトの3Dポーズを含む複数の同期データストリームが含まれている。実験では,3次元ハンドトラッキング,モデルベース6DoFオブジェクトポーズ推定,未知のインハンドオブジェクトの3次元持ち上げという3つの一般的なタスクに対して,マルチビュー・エゴセントリックデータの有効性を実証した。
論文参考訳（メタデータ） (2024-11-28T14:09:42Z)
3D-Aware Instance Segmentation and Tracking in Egocentric Videos [107.10661490652822]
エゴセントリックなビデオは、3Dシーンの理解にユニークな課題を提示する。本稿では,一対一のビデオにおけるインスタンスのセグメンテーションとトラッキングに対する新しいアプローチを提案する。空間的および時間的手がかりを取り入れることで、最先端の2D手法と比較して優れた性能が得られる。
論文参考訳（メタデータ） (2024-08-19T10:08:25Z)
CORE4D: A 4D Human-Object-Human Interaction Dataset for Collaborative Object REarrangement [20.520938266527438]
提案するCORE4Dは,新規な大規模4次元人物体協調物体再構成である。現実世界で捉えた1K個の人-物-人間の動作シーケンスにより、我々は様々な新しい物体に動きを増強するための反復的な協調戦略を寄与することにより、CORE4Dを豊かにする。 CORE4Dが提供する広範囲な動きパターンから、人間と物体の相互作用を生成するための2つのタスク、すなわち人-物体の動き予測と相互作用合成をベンチマークする。
論文参考訳（メタデータ） (2024-06-27T17:32:18Z)
4D Panoptic Scene Graph Generation [102.22082008976228]
ダイナミックな4次元世界において知覚される生の視覚データをブリッジし,高レベルの視覚的理解を実現する新しい表現である4D Panoptic Scene Graph (PSG-4D)を紹介する。具体的には、PSG-4Dは、リッチな4D知覚データをノードに抽象化し、正確な位置とステータス情報を持つエンティティとエッジを表現し、時間的関係をキャプチャする。そこで我々は,PSG4DFormerを提案する。PSG4DFormerはトランスフォーマーベースのモデルで,空間分割マスクを予測し,時間軸に沿ってマスクをトラックし,対応するシーングラフを生成する。
論文参考訳（メタデータ） (2024-05-16T17:56:55Z)
Comp4D: LLM-Guided Compositional 4D Scene Generation [65.5810466788355]
合成 4D 生成のための新しいフレームワーク Comp4D について述べる。シーン全体の特異な4D表現を生成する従来の方法とは異なり、Comp4Dはシーン内の各4Dオブジェクトを革新的に別々に構築する。提案手法は, 予め定義された軌道で導かれる合成スコア蒸留技術を用いている。
論文参考訳（メタデータ） (2024-03-25T17:55:52Z)
ADL4D: Towards A Contextually Rich Dataset for 4D Activities of Daily Living [4.221961702292134]
ADL4Dは、日々の生活活動(ADL)を行う異なる対象のセットで行動する、最大2人の被験者のデータセットである我々のデータセットは75のシーケンスで構成されており、合計1.1MのRGB-Dフレーム、手とオブジェクトのポーズ、手ごとのきめ細かいアクションアノテーションで構成されています。マルチビュー・マルチハンド3Dポーズ・アンノベーションのための自動システムを開発した。
論文参考訳（メタデータ） (2024-02-27T18:51:52Z)
Hi4D: 4D Instance Segmentation of Close Human Interaction [32.51930800738743]
Hi4Dは、20の被験者ペア、100のシーケンス、合計11Kフレームからなる4Dテクスチャスキャンのデータセットである。このデータセットには、2Dと3Dのリッチなインタラクション中心アノテーションと、正確に登録されたパラメトリックボディモデルが含まれている。
論文参考訳（メタデータ） (2023-03-27T16:53:09Z)
HouseCat6D -- A Large-Scale Multi-Modal Category Level 6D Object Perception Dataset with Household Objects in Realistic Scenarios [41.54851386729952]
新しいカテゴリレベルの6DポーズデータセットであるHouseCat6Dを紹介する。 1) ポラリメトリック RGB と Depth (RGBD+P) によるマルチモダリティ、2) フォトメトリックに挑戦する2つのカテゴリを含む10のカテゴリにわたる194の多様なオブジェクトを含み、3) エラー範囲が 1.35 mm から 1.74 mm である高品質なポーズアノテーションを提供する。
論文参考訳（メタデータ） (2022-12-20T17:06:32Z)
Class-agnostic Reconstruction of Dynamic Objects from Videos [127.41336060616214]
動的オブジェクトをRGBDや校正ビデオから再構成するためのクラスに依存しないフレームワークであるREDOを紹介する。我々は2つの新しいモジュールを開発し、まず、時間的視覚的手がかりを集約したピクセル整合性を持つ正準4次元暗黙関数を導入する。第2に、時間的伝播と集約をサポートするためにオブジェクトのダイナミクスをキャプチャする4D変換モジュールを開発する。
論文参考訳（メタデータ） (2021-12-03T18:57:47Z)
D3D-HOI: Dynamic 3D Human-Object Interactions from Videos [49.38319295373466]
本稿では,D3D-HOIについて紹介する。D3D-HOIは3次元オブジェクトのポーズ,形状,動きを,人間と物体の相互作用の時,地上の真理アノテーションを付加したモノクロビデオのデータセットである。我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。我々は、推定された3次元人間のポーズを利用して、物体の空間的レイアウトとダイナミクスをより正確に推定する。
論文参考訳（メタデータ） (2021-08-19T00:49:01Z)
H2O: Two Hands Manipulating Objects for First Person Interaction Recognition [70.46638409156772]
両手操作対象のマーカーレス3Dアノテーションを用いて,エゴセントリックな対話認識のための包括的なフレームワークを提案する。本手法は,2つの手の3次元ポーズと操作対象の6次元ポーズのアノテーションと,それぞれのフレームのインタラクションラベルを生成する。我々のデータセットは、H2O (2 Hands and Objects)と呼ばれ、同期されたマルチビューRGB-D画像、対話ラベル、オブジェクトクラス、左右の手でのグラウンドトルース3Dポーズ、6Dオブジェクトポーズ、グラウンドトルースカメラポーズ、オブジェクトメッシュ、シーンポイントクラウドを提供する。
論文参考訳（メタデータ） (2021-04-22T17:10:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。