論文の概要: InterAct: Advancing Large-Scale Versatile 3D Human-Object Interaction Generation
- arxiv url: http://arxiv.org/abs/2509.09555v1
- Date: Thu, 11 Sep 2025 15:43:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.452495
- Title: InterAct: Advancing Large-Scale Versatile 3D Human-Object Interaction Generation
- Title(参考訳): InterAct: 大規模Versatile 3Dヒューマン・オブジェクト・インタラクション・ジェネレーションの強化
- Authors: Sirui Xu, Dongting Li, Yucheng Zhang, Xiyan Xu, Qi Long, Ziyin Wang, Yunzhi Lu, Shuchang Dong, Hezi Jiang, Akshat Gupta, Yu-Xiong Wang, Liang-Yan Gui,
- Abstract要約: 大規模な3D HOIベンチマークであるInterActを導入する。
まず、さまざまなソースから21.81時間のHOIデータを統合し、標準化し、詳細なテキストアノテーションで強化する。
第2に、アーティファクトの削減と手の動きの修正によりデータ品質を向上させる統一的な最適化フレームワークを提案する。
第3に,6つのベンチマークタスクを定義し,HOI生成モデリングの視点を統一し,最先端性能を実現する。
- 参考スコア(独自算出の注目度): 54.09384502044162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large-scale human motion capture datasets have advanced human motion generation, modeling and generating dynamic 3D human-object interactions (HOIs) remain challenging due to dataset limitations. Existing datasets often lack extensive, high-quality motion and annotation and exhibit artifacts such as contact penetration, floating, and incorrect hand motions. To address these issues, we introduce InterAct, a large-scale 3D HOI benchmark featuring dataset and methodological advancements. First, we consolidate and standardize 21.81 hours of HOI data from diverse sources, enriching it with detailed textual annotations. Second, we propose a unified optimization framework to enhance data quality by reducing artifacts and correcting hand motions. Leveraging the principle of contact invariance, we maintain human-object relationships while introducing motion variations, expanding the dataset to 30.70 hours. Third, we define six benchmarking tasks and develop a unified HOI generative modeling perspective, achieving state-of-the-art performance. Extensive experiments validate the utility of our dataset as a foundational resource for advancing 3D human-object interaction generation. To support continued research in this area, the dataset is publicly available at https://github.com/wzyabcas/InterAct, and will be actively maintained.
- Abstract(参考訳): 大規模な人間のモーションキャプチャーデータセットには高度な人間のモーション生成があるが、データセットの制限のため、動的3Dオブジェクトインタラクション(HOI)のモデリングと生成は難しいままである。
既存のデータセットは、広範で高品質な動きやアノテーションを欠き、接触侵入、浮動、不正確な手の動きなどの人工物を示すことが多い。
これらの問題に対処するために、データセットと方法論の進歩を特徴とする大規模3D HOIベンチマークであるInterActを紹介する。
まず、さまざまなソースから21.81時間のHOIデータを統合し、標準化し、詳細なテキストアノテーションで強化する。
第2に、アーティファクトの削減と手の動きの修正によりデータ品質を向上させる統一的な最適化フレームワークを提案する。
接触不変性の原理を活用することで、人間とオブジェクトの関係を維持しながら、動きの変化を導入し、データセットを30.70時間に拡張します。
第3に,6つのベンチマークタスクを定義し,HOI生成モデリングの視点を統一し,最先端性能を実現する。
大規模な実験により、我々のデータセットは3次元の人間と物体の相互作用生成を促進する基礎資源として有用であることが検証された。
この領域での継続的な研究をサポートするため、データセットはhttps://github.com/wzyabcas/InterActで公開されており、アクティブにメンテナンスされる予定である。
関連論文リスト
- Waymo-3DSkelMo: A Multi-Agent 3D Skeletal Motion Dataset for Pedestrian Interaction Modeling in Autonomous Driving [14.206170348283816]
3DSkelMoは、明示的な相互作用意味を持つ高品質で時間的に整合した3D骨格運動を提供する最初の大規模データセットである。
データセットは、800以上の実走行シナリオで14,000秒以上をカバーしている。
論文 参考訳(メタデータ) (2025-08-13T00:39:56Z) - InteractAnything: Zero-shot Human Object Interaction Synthesis via LLM Feedback and Object Affordance Parsing [36.29681929804816]
特定のデータセットをトレーニングすることなく,新たなゼロショット3DHOI生成フレームワークを提案する。
トレーニング済みの2次元画像拡散モデルを用いて、見えない物体を解析し、接触点を抽出する。
次に、細粒度、精密、そして自然な相互作用を生成するための詳細な最適化を導入し、3Dオブジェクトと関連する身体部分との間の現実的な3D接触を強制する。
論文 参考訳(メタデータ) (2025-05-30T07:53:55Z) - MEgoHand: Multimodal Egocentric Hand-Object Interaction Motion Generation [28.75149480374178]
MEgoHandは、エゴセントリックなRGB、テキスト、初期手ポーズから物理的にプラウジブルなハンドオブジェクトインタラクションを合成するフレームワークである。
手首の翻訳誤差と関節回転誤差の大幅な低減を実現し、手首の微細な関節構造を正確にモデル化する能力を強調している。
論文 参考訳(メタデータ) (2025-05-22T12:37:47Z) - HOGSA: Bimanual Hand-Object Interaction Understanding with 3D Gaussian Splatting Based Data Augmentation [29.766317710266765]
本稿では,2次元手動物体間相互作用のための3次元ガウススプラッティングに基づくデータ拡張フレームワークを提案する。
メッシュベースの3DGSを用いてオブジェクトとハンドをモデル化し、マルチレゾリューション入力画像によるレンダリングのぼかし問題に対処する。
両手オブジェクトに対する片手握りポーズ最適化モジュールを拡張し、両手オブジェクト間相互作用のさまざまなポーズを生成する。
論文 参考訳(メタデータ) (2025-01-06T08:48:17Z) - HOIMotion: Forecasting Human Motion During Human-Object Interactions Using Egocentric 3D Object Bounding Boxes [10.237077867790612]
本稿では,人間と物体の相互作用における人間の動き予測の新しい手法であるHOIMotionを提案する。
提案手法は,過去の身体のポーズやエゴセントリックな3Dオブジェクト境界ボックスに関する情報を統合する。
HOIMotionは、最先端の手法よりも大きなマージンで一貫して優れていることを示す。
論文 参考訳(メタデータ) (2024-07-02T19:58:35Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Scaling Up Dynamic Human-Scene Interaction Modeling [58.032368564071895]
TRUMANSは、現在利用可能な最も包括的なモーションキャプチャーHSIデータセットである。
人体全体の動きや部分レベルの物体の動きを複雑に捉えます。
本研究では,任意の長さのHSI配列を効率的に生成する拡散型自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2024-03-13T15:45:04Z) - HMP: Hand Motion Priors for Pose and Shape Estimation from Video [52.39020275278984]
我々は,多種多様な高品質の手の動きを特徴とするAMASSデータセットに基づいて,手動に特有な生成動作を開発する。
頑健な動きの統合は、特に隠蔽されたシナリオにおいて、パフォーマンスを著しく向上させる。
HO3DおよびDexYCBデータセットの質的および定量的評価により,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-12-27T22:35:33Z) - Learn to Predict How Humans Manipulate Large-sized Objects from
Interactive Motions [82.90906153293585]
本稿では,動きデータと動的記述子を融合させるグラフニューラルネットワークHO-GCNを提案する。
動的記述子を消費するネットワークは、最先端の予測結果が得られ、未確認オブジェクトへのネットワークの一般化に役立つことを示す。
論文 参考訳(メタデータ) (2022-06-25T09:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。