論文の概要: D3D-HOI: Dynamic 3D Human-Object Interactions from Videos
- arxiv url: http://arxiv.org/abs/2108.08420v1
- Date: Thu, 19 Aug 2021 00:49:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-20 14:34:01.288912
- Title: D3D-HOI: Dynamic 3D Human-Object Interactions from Videos
- Title(参考訳): D3D-HOI:ビデオからの動的3Dオブジェクトインタラクション
- Authors: Xiang Xu, Hanbyul Joo, Greg Mori, Manolis Savva
- Abstract要約: 本稿では,D3D-HOIについて紹介する。D3D-HOIは3次元オブジェクトのポーズ,形状,動きを,人間と物体の相互作用の時,地上の真理アノテーションを付加したモノクロビデオのデータセットである。
我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。
我々は、推定された3次元人間のポーズを利用して、物体の空間的レイアウトとダイナミクスをより正確に推定する。
- 参考スコア(独自算出の注目度): 49.38319295373466
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce D3D-HOI: a dataset of monocular videos with ground truth
annotations of 3D object pose, shape and part motion during human-object
interactions. Our dataset consists of several common articulated objects
captured from diverse real-world scenes and camera viewpoints. Each manipulated
object (e.g., microwave oven) is represented with a matching 3D parametric
model. This data allows us to evaluate the reconstruction quality of
articulated objects and establish a benchmark for this challenging task. In
particular, we leverage the estimated 3D human pose for more accurate inference
of the object spatial layout and dynamics. We evaluate this approach on our
dataset, demonstrating that human-object relations can significantly reduce the
ambiguity of articulated object reconstructions from challenging real-world
videos. Code and dataset are available at
https://github.com/facebookresearch/d3d-hoi.
- Abstract(参考訳): d3d-hoi: 3dオブジェクトのポーズ、形状、および部分の動きを、人間とオブジェクトの相互作用に基づけた、単眼ビデオのデータセットである。
我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。
各操作対象(例えばマイクロ波オーブン)は、一致する3Dパラメトリックモデルで表される。
このデータにより,構音オブジェクトの再構成品質を評価し,この課題に対するベンチマークを確立できる。
特に,推定された3次元人間のポーズを利用して,物体の空間配置とダイナミクスをより正確に推定する。
我々は,本手法をデータセット上で評価し,人間の対象関係が実世界の挑戦的なビデオから明瞭なオブジェクト再構成のあいまいさを著しく低減できることを示した。
コードとデータセットはhttps://github.com/facebookresearch/d3d-hoiで入手できる。
関連論文リスト
- Reconstructing Hand-Held Objects in 3D from Images and Videos [53.277402172488735]
モノクローナルなRGB映像が与えられると、時間とともに手持ちの物体の幾何学を3Dで再構築することを目指している。
1枚のRGB画像から手と物体の形状を共同で再構成するMCC-Hand-Object(MCC-HO)を提案する。
次に、GPT-4(V)を用いてテキストから3D生成モデルを作成し、画像中のオブジェクトにマッチする3Dオブジェクトモデルを検索する。
論文 参考訳(メタデータ) (2024-04-09T17:55:41Z) - DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and
Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。
本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。
我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-03-09T12:22:46Z) - HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and
Objects from Video [70.11702620562889]
HOLD - 単分子インタラクションビデオから手とオブジェクトを共同で再構成する最初のカテゴリーに依存しない方法。
我々は,3次元手と物体を2次元画像から切り離すことができる構成的明瞭な暗黙モデルを開発した。
本手法は,3次元手オブジェクトアノテーションに頼らず,組込みと組込みの両面において,完全教師付きベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-30T10:50:35Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Tracking Objects with 3D Representation from Videos [57.641129788552675]
P3DTrackと呼ばれる新しい2次元多目的追跡パラダイムを提案する。
モノクロビデオにおける擬似3Dオブジェクトラベルからの3次元オブジェクト表現学習により,P3DTrackと呼ばれる新しい2次元MOTパラダイムを提案する。
論文 参考訳(メタデータ) (2023-06-08T17:58:45Z) - 3D Reconstruction of Objects in Hands without Real World 3D Supervision [12.70221786947807]
ハンドヘルドオブジェクトを再構築するためのモデル学習をスケールアップするために,3Dインスペクションを活用するモジュールを提案する。
具体的には、ビデオから多視点2Dマスクの監視を抽出し、形状収集から3次元形状の前兆を抽出する。
我々はこれらの間接的な3次元キューを用いて、単一のRGB画像から物体の3次元形状を予測する占有ネットワークを訓練する。
論文 参考訳(メタデータ) (2023-05-04T17:56:48Z) - Articulated 3D Human-Object Interactions from RGB Videos: An Empirical
Analysis of Approaches and Challenges [19.21834600205309]
RGBビデオからの3次元人-物体インタラクション再構築のタスクを標準化する。
このタスクには,3次元平面推定,3次元立方体推定,CADモデル適合,暗黙のフィールド適合,自由形メッシュ適合という5種類の手法を用いる。
実験の結果,全ての手法が真理情報を提供しても精度の高い結果を得るのに苦慮していることがわかった。
論文 参考訳(メタデータ) (2022-09-12T21:03:25Z) - Objectron: A Large Scale Dataset of Object-Centric Videos in the Wild
with Pose Annotations [0.0]
3Dオブジェクト検出の最先端を前進させるために、Objectronデータセットを紹介します。
データセットには、9つのカテゴリのポーズアノテーションを備えたオブジェクト中心の短いビデオが含まれ、14,819の注釈付きビデオに400万の注釈付き画像が含まれています。
論文 参考訳(メタデータ) (2020-12-18T00:34:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。