論文の概要: Efficient and Scalable Monocular Human-Object Interaction Motion Reconstruction
- arxiv url: http://arxiv.org/abs/2512.00960v1
- Date: Sun, 30 Nov 2025 16:21:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.517775
- Title: Efficient and Scalable Monocular Human-Object Interaction Motion Reconstruction
- Title(参考訳): 能率的かつスケーラブルな単眼物体間相互作用運動再構成
- Authors: Boran Wen, Ye Lu, Keyan Wan, Sirui Wang, Jiahong Zhou, Junxuan Liang, Xinpeng Liu, Bang Xiao, Dingbang Huang, Ruiyang Liu, Yong-Lu Li,
- Abstract要約: 汎用ロボットは、多種多様な大規模人間オブジェクト相互作用(HOI)から学習し、現実世界でしっかりと操作する必要がある。
4DHOISOLverは、4DHOI復元問題に対処する新しい,効率的な最適化フレームワークである。
Open4DHOIは、144のオブジェクトタイプと103のアクションの多様なカタログを備えた、新しい大規模4D HOIデータセットである。
- 参考スコア(独自算出の注目度): 19.16200327159635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generalized robots must learn from diverse, large-scale human-object interactions (HOI) to operate robustly in the real world. Monocular internet videos offer a nearly limitless and readily available source of data, capturing an unparalleled diversity of human activities, objects, and environments. However, accurately and scalably extracting 4D interaction data from these in-the-wild videos remains a significant and unsolved challenge. Thus, in this work, we introduce 4DHOISolver, a novel and efficient optimization framework that constrains the ill-posed 4D HOI reconstruction problem by leveraging sparse, human-in-the-loop contact point annotations, while maintaining high spatio-temporal coherence and physical plausibility. Leveraging this framework, we introduce Open4DHOI, a new large-scale 4D HOI dataset featuring a diverse catalog of 144 object types and 103 actions. Furthermore, we demonstrate the effectiveness of our reconstructions by enabling an RL-based agent to imitate the recovered motions. However, a comprehensive benchmark of existing 3D foundation models indicates that automatically predicting precise human-object contact correspondences remains an unsolved problem, underscoring the immediate necessity of our human-in-the-loop strategy while posing an open challenge to the community. Data and code will be publicly available at https://wenboran2002.github.io/open4dhoi/
- Abstract(参考訳): 汎用ロボットは、多種多様で大規模な人-物間相互作用(HOI)から学習し、現実世界で堅牢に動作させなければならない。
モノクラシックなインターネットビデオは、人間の活動、オブジェクト、環境の相容れない多様性を捉えながら、ほぼ無制限で容易に利用できるデータソースを提供する。
しかし、4Dのインタラクションデータを正確に、正確に抽出することは、重要な課題であり、未解決の課題である。
そこで本研究では,不適切な4D HOI再構成問題に対して,高空間的コヒーレンスと物理的妥当性を維持しつつ,疎結合な人間-ループ間コンタクトポイントアノテーションを活用することによって,新しい,効率的な最適化フレームワークである4DHOISolverを紹介する。
このフレームワークを活用したOpen4DHOIは、144のオブジェクトタイプと103アクションの多様なカタログを備えた、新しい大規模4D HOIデータセットである。
さらに,RLをベースとしたエージェントによる復元動作の再現を可能にすることで,再建の有効性を実証する。
しかし、既存の3Dファンデーションモデルの包括的なベンチマークでは、正確な人間-対象の接触通信を自動的に予測することは未解決の問題であり、コミュニティにオープンな課題を呈しながら、私たちのループ戦略の即時の必要性を強調している。
データとコードはhttps://wenboran2002.github.io/open4dhoi/で公開される。
関連論文リスト
- OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction [76.44108003274955]
ヒューマノイドロボットの複雑なスキルを教えるための主要なパラダイムは、強化学習ポリシーの運動学的参照として人間の動きを再ターゲットすることである。
インタラクションメッシュに基づくインタラクション保存データ生成エンジンであるOmniRetargetを紹介する。
人間のメッシュとロボットメッシュの間のラプラシアの変形を最小限にすることで、OmniRetargetは運動学的に実現可能な軌道を生成する。
論文 参考訳(メタデータ) (2025-09-30T17:59:02Z) - InterAct: Advancing Large-Scale Versatile 3D Human-Object Interaction Generation [54.09384502044162]
大規模な3D HOIベンチマークであるInterActを導入する。
まず、さまざまなソースから21.81時間のHOIデータを統合し、標準化し、詳細なテキストアノテーションで強化する。
第2に、アーティファクトの削減と手の動きの修正によりデータ品質を向上させる統一的な最適化フレームワークを提案する。
第3に,6つのベンチマークタスクを定義し,HOI生成モデリングの視点を統一し,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-09-11T15:43:54Z) - GenHOI: Generalizing Text-driven 4D Human-Object Interaction Synthesis for Unseen Objects [13.830968058014546]
GenHOI は,1) 見えない物体への一般化,2) 高忠実度 4D HOI 配列の合成という2つの主要な目的を達成するための2段階のフレームワークである。
接触認識拡散モデル (ContactDM) を第2段階に導入し, 3D HOI を高密な時間的コヒーレントな 4D HOI 配列にシームレスに補間する。
実験の結果,OMOMODMおよび3D-FUTUREデータセットについて,現状の成果が得られた。
論文 参考訳(メタデータ) (2025-06-18T14:17:53Z) - CORE4D: A 4D Human-Object-Human Interaction Dataset for Collaborative Object REarrangement [24.287902864042792]
我々は,新しい大規模4次元人間オブジェクト協調データセットであるCORE4Dを提案する。
現実世界で捉えた1K個の人-物-人間の動作シーケンスにより、我々は様々な新しい物体に動きを増強するための反復的な協調戦略を寄与することにより、CORE4Dを豊かにする。
CORE4Dが提供する広範囲な動きパターンから、人間と物体の相互作用を生成するための2つのタスク、すなわち人-物体の動き予測と相互作用合成をベンチマークする。
論文 参考訳(メタデータ) (2024-06-27T17:32:18Z) - H4D: Human 4D Modeling by Learning Neural Compositional Representation [75.34798886466311]
この研究は、動的人間に対するコンパクトで構成的な表現を効果的に学習できる新しい枠組みを提示する。
単純で効果的な線形運動モデルを提案し, 粗く規則化された動き推定を行う。
本手法は, 高精度な動作と詳細な形状を持つ動的ヒトの回復に有効であるだけでなく, 様々な4次元人間関連タスクにも有効であることを示す。
論文 参考訳(メタデータ) (2022-03-02T17:10:49Z) - RobustFusion: Robust Volumetric Performance Reconstruction under
Human-object Interactions from Monocular RGBD Stream [27.600873320989276]
現実のシナリオでは、さまざまなオブジェクトと複雑な相互作用を持つ人間のパフォーマンスの高品質の4D再構築が不可欠です。
近年の進歩は、信頼性の高い性能回復には至っていない。
人間と物体のインタラクションシナリオのための堅牢なボリュームパフォーマンス再構築システムであるRobustFusionを提案する。
論文 参考訳(メタデータ) (2021-04-30T08:41:45Z) - Reconstructing Hand-Object Interactions in the Wild [71.16013096764046]
直接3D監視を必要としない最適化手法を提案する。
利用可能なすべての関連データ(2Dバウンディングボックス、2Dハンドキーポイント、2Dインスタンスマスク、3Dオブジェクトモデル、3DインザラボMoCap)を利用して、3D再構築の制約を提供します。
本手法はEPIC Kitchens と 100 Days of Hands のデータセットから, 難易度の高いデータに対して, 説得力のある再構築を行う。
論文 参考訳(メタデータ) (2020-12-17T18:59:58Z) - HMOR: Hierarchical Multi-Person Ordinal Relations for Monocular
Multi-Person 3D Pose Estimation [54.23770284299979]
本稿では, 階層型多人数常連関係(HMOR)を新たに導入する。
HMORは相互作用情報を階層的に深さと角度の順序関係として符号化する。
統合トップダウンモデルは、学習プロセスにおけるこれらの順序関係を活用するように設計されている。
提案手法は, 公開されている多人数の3Dポーズデータセットにおいて, 最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-08-01T07:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。