論文の概要: I'M HOI: Inertia-aware Monocular Capture of 3D Human-Object Interactions
- arxiv url: http://arxiv.org/abs/2312.08869v2
- Date: Sat, 30 Mar 2024 07:23:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-02 14:45:23.943186
- Title: I'M HOI: Inertia-aware Monocular Capture of 3D Human-Object Interactions
- Title(参考訳): I'm HOI:3次元物体相互作用の慣性認識単分子キャプチャ
- Authors: Chengfeng Zhao, Juze Zhang, Jiashen Du, Ziwei Shan, Junye Wang, Jingyi Yu, Jingya Wang, Lan Xu,
- Abstract要約: イムホイ(I'm-HOI)は、人間と物体の両方の3Dの動きを、新しい環境で忠実に捉えようとするモノクラースキームである。
一般的な動き推論とカテゴリー認識の洗練を兼ね備えている。
私たちのデータセットとコードはコミュニティにリリースされます。
- 参考スコア(独自算出の注目度): 42.87514729260336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We are living in a world surrounded by diverse and "smart" devices with rich modalities of sensing ability. Conveniently capturing the interactions between us humans and these objects remains far-reaching. In this paper, we present I'm-HOI, a monocular scheme to faithfully capture the 3D motions of both the human and object in a novel setting: using a minimal amount of RGB camera and object-mounted Inertial Measurement Unit (IMU). It combines general motion inference and category-aware refinement. For the former, we introduce a holistic human-object tracking method to fuse the IMU signals and the RGB stream and progressively recover the human motions and subsequently the companion object motions. For the latter, we tailor a category-aware motion diffusion model, which is conditioned on both the raw IMU observations and the results from the previous stage under over-parameterization representation. It significantly refines the initial results and generates vivid body, hand, and object motions. Moreover, we contribute a large dataset with ground truth human and object motions, dense RGB inputs, and rich object-mounted IMU measurements. Extensive experiments demonstrate the effectiveness of I'm-HOI under a hybrid capture setting. Our dataset and code will be released to the community.
- Abstract(参考訳): 私たちは、多様な「スマート」デバイスに囲まれた世界に住んでいる。
人間とこれらの物体の相互作用を連続的に捉えることは、いまだに遠く離れている。
本稿では,RGBカメラと物体搭載慣性測定ユニット(IMU)の最小限の量を用いて,人間と物体の3次元運動を忠実に捉えるモノクラースキームI'm-HOIを提案する。
一般的な動き推論とカテゴリー認識の洗練を兼ね備えている。
前者に対しては、IMU信号とRGBストリームを融合させ、段階的に人間の動きを回復し、その後に付随する物体の動きを回復する全体的対象追跡手法を導入する。
後者については、IMUの生観測と前段階の結果の両方をパラメータ化表現の下で条件付けしたカテゴリ対応の運動拡散モデルを調整する。
初期の結果を著しく改善し、鮮やかな身体、手、物体の動きを生成する。
さらに,人間と物体の動き,RGBの高密度入力,およびリッチな物体搭載IMU測定による大規模データセットをコントリビュートする。
広汎な実験は、ハイブリッドキャプチャ環境下でのI'm-HOIの有効性を示す。
私たちのデータセットとコードはコミュニティにリリースされます。
関連論文リスト
- HOIMotion: Forecasting Human Motion During Human-Object Interactions Using Egocentric 3D Object Bounding Boxes [10.237077867790612]
本稿では,人間と物体の相互作用における人間の動き予測の新しい手法であるHOIMotionを提案する。
提案手法は,過去の身体のポーズやエゴセントリックな3Dオブジェクト境界ボックスに関する情報を統合する。
HOIMotionは、最先端の手法よりも大きなマージンで一貫して優れていることを示す。
論文 参考訳(メタデータ) (2024-07-02T19:58:35Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - HOI-M3:Capture Multiple Humans and Objects Interaction within Contextual Environment [43.6454394625555]
HOI-M3は、複数のhumanと複数のオブジェクトの相互作用をモデル化するための、新しい大規模データセットである。
密集したRGBとオブジェクト搭載IMU入力から、人間と物体の両方の正確な3Dトラッキングを提供する。
論文 参考訳(メタデータ) (2024-03-30T09:24:25Z) - ParaHome: Parameterizing Everyday Home Activities Towards 3D Generative
Modeling of Human-Object Interactions [11.32229757116179]
そこで我々は,人間と物体の動的3次元運動を,共通のホーム環境内で捉えるために設計されたParaHomeシステムを紹介した。
ParaHomeシステムを利用することで、人間と物体の相互作用の大規模なデータセットを収集する。
論文 参考訳(メタデータ) (2024-01-18T18:59:58Z) - Object Motion Guided Human Motion Synthesis [22.08240141115053]
大規模物体の操作におけるフルボディ人体動作合成の問題点について検討する。
条件付き拡散フレームワークであるOMOMO(Object Motion Guided Human Motion synthesis)を提案する。
我々は、操作対象物にスマートフォンを装着するだけで、全身の人間の操作動作をキャプチャする新しいシステムを開発した。
論文 参考訳(メタデータ) (2023-09-28T08:22:00Z) - Full-Body Articulated Human-Object Interaction [61.01135739641217]
CHAIRSは16.2時間の多目的相互作用からなる大規模な動きキャプチャーされたf-AHOIデータセットである。
CHAIRSは、対話的なプロセス全体を通して、人間と明瞭なオブジェクトの両方の3Dメッシュを提供する。
HOIにおける幾何学的関係を学習することにより,人間のポーズ推定を利用した最初のモデルが考案された。
論文 参考訳(メタデータ) (2022-12-20T19:50:54Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - Learn to Predict How Humans Manipulate Large-sized Objects from
Interactive Motions [82.90906153293585]
本稿では,動きデータと動的記述子を融合させるグラフニューラルネットワークHO-GCNを提案する。
動的記述子を消費するネットワークは、最先端の予測結果が得られ、未確認オブジェクトへのネットワークの一般化に役立つことを示す。
論文 参考訳(メタデータ) (2022-06-25T09:55:39Z) - Transformer Inertial Poser: Attention-based Real-time Human Motion
Reconstruction from Sparse IMUs [79.72586714047199]
本研究では,6つのIMUセンサからリアルタイムに全体動作を再構築する,注意に基づく深層学習手法を提案する。
提案手法は, 実装が簡単で, 小型でありながら, 定量的かつ質的に新しい結果が得られる。
論文 参考訳(メタデータ) (2022-03-29T16:24:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。