論文の概要: Ins-HOI: Instance Aware Human-Object Interactions Recovery
- arxiv url: http://arxiv.org/abs/2312.09641v2
- Date: Thu, 21 Mar 2024 15:57:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 19:27:29.685701
- Title: Ins-HOI: Instance Aware Human-Object Interactions Recovery
- Title(参考訳): Ins-HOI: ヒューマンオブジェクトインタラクションのリカバリを意識したインスタンス
- Authors: Jiajun Zhang, Yuxiang Zhang, Hongwen Zhang, Xiao Zhou, Boyao Zhou, Ruizhi Shao, Zonghai Hu, Yebin Liu,
- Abstract要約: 本稿では,エンド・ツー・エンドのインスタンス・アウェアなヒューマン・オブジェクト・インタラクション・リカバリ(Ins-HOI)フレームワークを提案する。
Ins-HOIはインスタンスレベルの再構築をサポートし、合理的で現実的な接触面を提供する。
我々は、現実世界の人間-椅子と手-物体の相互作用を伴う5.2kの高品質スキャンを含む、大規模で高忠実な3Dスキャンデータセットを収集します。
- 参考スコア(独自算出の注目度): 44.02128629239429
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurately modeling detailed interactions between human/hand and object is an appealing yet challenging task. Current multi-view capture systems are only capable of reconstructing multiple subjects into a single, unified mesh, which fails to model the states of each instance individually during interactions. To address this, previous methods use template-based representations to track human/hand and object. However, the quality of the reconstructions is limited by the descriptive capabilities of the templates so that these methods are inherently struggle with geometry details, pressing deformations and invisible contact surfaces. In this work, we propose an end-to-end Instance-aware Human-Object Interactions recovery (Ins-HOI) framework by introducing an instance-level occupancy field representation. However, the real-captured data is presented as a holistic mesh, unable to provide instance-level supervision. To address this, we further propose a complementary training strategy that leverages synthetic data to introduce instance-level shape priors, enabling the disentanglement of occupancy fields for different instances. Specifically, synthetic data, created by randomly combining individual scans of humans/hands and objects, guides the network to learn a coarse prior of instances. Meanwhile, real-captured data helps in learning the overall geometry and restricting interpenetration in contact areas. As demonstrated in experiments, our method Ins-HOI supports instance-level reconstruction and provides reasonable and realistic invisible contact surfaces even in cases of extremely close interaction. To facilitate the research of this task, we collect a large-scale, high-fidelity 3D scan dataset, including 5.2k high-quality scans with real-world human-chair and hand-object interactions. The code and data will be public for research purposes.
- Abstract(参考訳): 人間の手と物体の詳細な相互作用を正確にモデル化することは、魅力的だが難しい課題だ。
現在のマルチビューキャプチャシステムは、複数の被写体を単一の統一メッシュに再構築するだけで、インタラクション中に各インスタンスの状態を個別にモデル化できない。
これを解決するために、以前のメソッドはテンプレートベースの表現を使用して人や手やオブジェクトを追跡する。
しかし、復元の質はテンプレートの記述能力によって制限されるため、これらの手法は本質的に幾何学的詳細や押圧変形、目に見えない接触面に苦しむ。
本研究では、インスタンスレベルの占有範囲表現を導入し、エンドツーエンドのインスタンス対応ヒューマン・オブジェクト・インタラクション・リカバリ(Ins-HOI)フレームワークを提案する。
しかし、実際のキャプチャされたデータは、総合的なメッシュとして表現され、インスタンスレベルの監視を提供することができない。
これを解決するために, 合成データを利用した補完的学習手法を提案し, 異なるインスタンスに対する占有フィールドの絡み合いを解消する。
具体的には、人や手や物体の個々のスキャンをランダムに組み合わせて作成した合成データによって、ネットワークがインスタンスの前に粗いものを学習するように誘導する。
一方、実際のキャプチャーされたデータは、全体の幾何学を学習し、接触領域における相互接続を制限するのに役立つ。
実験で示されたように,本手法はインスタンスレベルの再構築をサポートし,極めて密接な相互作用であっても,合理的かつ現実的な接触面を提供する。
この課題の解明を容易にするため,実世界におけるヒューマンチェアとハンドオブジェクトのインタラクションによる5.2kの高品質スキャンを含む,大規模で高忠実な3Dスキャンデータセットを収集した。
コードとデータは研究目的で公開されます。
関連論文リスト
- Ask, Pose, Unite: Scaling Data Acquisition for Close Interactions with Vision Language Models [5.541130887628606]
密接な人間間相互作用における社会的ダイナミクスはヒューマンメッシュ推定(HME)に重大な課題をもたらす
本稿では,LVLM(Large Vision Language Models)を用いた新しいデータ生成手法を提案する。
この手法は、アノテーションの負担を軽減するだけでなく、HME内の密接な相互作用に適した包括的なデータセットの組み立てを可能にする。
論文 参考訳(メタデータ) (2024-10-01T01:14:24Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Scaling Up Dynamic Human-Scene Interaction Modeling [58.032368564071895]
TRUMANSは、現在利用可能な最も包括的なモーションキャプチャーHSIデータセットである。
人体全体の動きや部分レベルの物体の動きを複雑に捉えます。
本研究では,任意の長さのHSI配列を効率的に生成する拡散型自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2024-03-13T15:45:04Z) - Template Free Reconstruction of Human-object Interaction with Procedural Interaction Generation [38.08445005326031]
提案するProciGenは,多種多様なオブジェクトの相互作用と対話性の両方で,プロシージャ的にデータセットを生成する。
我々は3Dで1M以上の人間と物体の相互作用ペアを生成し、この大規模データを利用してHDM(Procedural Diffusion Model)を訓練する。
我々のHDMは、現実的な相互作用と高精度な人間と物体の形状の両方を学習する画像条件拡散モデルである。
論文 参考訳(メタデータ) (2023-12-12T08:32:55Z) - Contrastive Lift: 3D Object Instance Segmentation by Slow-Fast
Contrastive Fusion [110.84357383258818]
本稿では,2次元セグメントを3次元に上げ,ニューラルネットワーク表現を用いて融合させる新しい手法を提案する。
このアプローチの中核は、高速なクラスタリング目的関数であり、多数のオブジェクトを持つシーンにスケーラブルで適しています。
我々のアプローチは、ScanNet、Hypersim、Replicaのデータセットからの挑戦的なシーンにおいて、最先端の状況よりも優れています。
論文 参考訳(メタデータ) (2023-06-07T17:57:45Z) - Full-Body Articulated Human-Object Interaction [61.01135739641217]
CHAIRSは16.2時間の多目的相互作用からなる大規模な動きキャプチャーされたf-AHOIデータセットである。
CHAIRSは、対話的なプロセス全体を通して、人間と明瞭なオブジェクトの両方の3Dメッシュを提供する。
HOIにおける幾何学的関係を学習することにより,人間のポーズ推定を利用した最初のモデルが考案された。
論文 参考訳(メタデータ) (2022-12-20T19:50:54Z) - BEHAVE: Dataset and Method for Tracking Human Object Interactions [105.77368488612704]
マルチビューのRGBDフレームとそれに対応する3D SMPLとオブジェクトをアノテートしたアノテートコンタクトに適合させる。
このデータを用いて、自然環境における人間と物体を、容易に使用可能なマルチカメラで共同で追跡できるモデルを学ぶ。
論文 参考訳(メタデータ) (2022-04-14T13:21:19Z) - DemoGrasp: Few-Shot Learning for Robotic Grasping with Human
Demonstration [42.19014385637538]
本稿では,ロボットに対して,単純で短い人間の実演で物体をつかむ方法を教えることを提案する。
まず、人間と物体の相互作用を示すRGB-D画像の小さなシーケンスを提示する。
このシーケンスを使用して、インタラクションを表す手とオブジェクトメッシュを構築する。
論文 参考訳(メタデータ) (2021-12-06T08:17:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。