論文の概要: MMHOI: Modeling Complex 3D Multi-Human Multi-Object Interactions
- arxiv url: http://arxiv.org/abs/2510.07828v1
- Date: Thu, 09 Oct 2025 06:18:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.901632
- Title: MMHOI: Modeling Complex 3D Multi-Human Multi-Object Interactions
- Title(参考訳): MMHOI:複雑な3次元マルチヒューマン・マルチオブジェクトインタラクションのモデリング
- Authors: Kaen Kogashi, Anoop Cherian, Meng-Yu Jennifer Kuo,
- Abstract要約: 本稿では,12の日常シナリオの画像からなる大規模多目的インタラクションデータセットMMHOIを提案する。
MMHOIは、すべての人やオブジェクトに対して完全な3D形状とアノテーションを提供し、78のアクションカテゴリと14のインタラクション固有のボディパーツのラベルを提供する。
MMHOI-Netは、人間と物体の3次元空間、それらの相互作用、および関連する動作を共同で推定するエンド・ツー・エンドのトランスフォーマーベースのニューラルネットワークである。
- 参考スコア(独自算出の注目度): 20.96140289964853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world scenes often feature multiple humans interacting with multiple objects in ways that are causal, goal-oriented, or cooperative. Yet existing 3D human-object interaction (HOI) benchmarks consider only a fraction of these complex interactions. To close this gap, we present MMHOI -- a large-scale, Multi-human Multi-object Interaction dataset consisting of images from 12 everyday scenarios. MMHOI offers complete 3D shape and pose annotations for every person and object, along with labels for 78 action categories and 14 interaction-specific body parts, providing a comprehensive testbed for next-generation HOI research. Building on MMHOI, we present MMHOI-Net, an end-to-end transformer-based neural network for jointly estimating human-object 3D geometries, their interactions, and associated actions. A key innovation in our framework is a structured dual-patch representation for modeling objects and their interactions, combined with action recognition to enhance the interaction prediction. Experiments on MMHOI and the recently proposed CORE4D datasets demonstrate that our approach achieves state-of-the-art performance in multi-HOI modeling, excelling in both accuracy and reconstruction quality.
- Abstract(参考訳): 現実世界のシーンは、因果的、ゴール指向、協調的な方法で複数のオブジェクトと相互作用する複数の人間を特徴付けることが多い。
しかし、既存の3Dヒューマンオブジェクト相互作用(HOI)ベンチマークでは、これらの複雑な相互作用のごく一部しか考慮していない。
このギャップを埋めるために,12の日常シナリオの画像からなる大規模多目的インタラクションデータセットMMHOIを提案する。
MMHOIは、すべての人やオブジェクトに対して完全な3D形状とアノテーションを提供するとともに、78のアクションカテゴリと14のインタラクション固有のボディパーツのラベルを提供し、次世代HOI研究のための包括的なテストベッドを提供する。
MMHOI 上に構築した MMHOI-Net は,人間と物体の3次元空間,それらの相互作用,および関連する動作を共同で推定する,エンド・ツー・エンドのトランスフォーマーベースのニューラルネットワークである。
我々のフレームワークにおける重要な革新は、オブジェクトとその相互作用をモデリングするための構造化されたデュアルパッチ表現であり、相互作用予測を強化するためにアクション認識と組み合わせている。
MMHOIと最近提案されたCORE4Dデータセットを用いた実験により,本手法がマルチHoIモデリングにおける最先端性能を実現し,精度と再現性の両方に優れることを示した。
関連論文リスト
- IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - HIMO: A New Benchmark for Full-Body Human Interacting with Multiple Objects [86.86284624825356]
HIMOは、複数のオブジェクトと相互作用するフルボディの人間のデータセットである。
HIMOは3.3K 4D HOIシーケンスと4.08M 3D HOIフレームを含む。
論文 参考訳(メタデータ) (2024-07-17T07:47:34Z) - CORE4D: A 4D Human-Object-Human Interaction Dataset for Collaborative Object REarrangement [24.287902864042792]
我々は,新しい大規模4次元人間オブジェクト協調データセットであるCORE4Dを提案する。
現実世界で捉えた1K個の人-物-人間の動作シーケンスにより、我々は様々な新しい物体に動きを増強するための反復的な協調戦略を寄与することにより、CORE4Dを豊かにする。
CORE4Dが提供する広範囲な動きパターンから、人間と物体の相互作用を生成するための2つのタスク、すなわち人-物体の動き予測と相互作用合成をベンチマークする。
論文 参考訳(メタデータ) (2024-06-27T17:32:18Z) - HOI-M3:Capture Multiple Humans and Objects Interaction within Contextual Environment [43.6454394625555]
HOI-M3は、複数のhumanと複数のオブジェクトの相互作用をモデル化するための、新しい大規模データセットである。
密集したRGBとオブジェクト搭載IMU入力から、人間と物体の両方の正確な3Dトラッキングを提供する。
論文 参考訳(メタデータ) (2024-03-30T09:24:25Z) - SM$^3$: Self-Supervised Multi-task Modeling with Multi-view 2D Images
for Articulated Objects [24.737865259695006]
そこで本研究では, SM$3$と呼ばれる自己教師型相互作用認識手法を提案する。
取得した2次元画像から3次元の幾何学とテクスチャを構築することで、SM$3$は可動部と関節パラメータの統合最適化を実現する。
SM$3$は、様々なカテゴリやオブジェクトにわたる既存のベンチマークを上回り、実際のシナリオにおける適応性は、徹底的に検証されている。
論文 参考訳(メタデータ) (2024-01-17T11:15:09Z) - Full-Body Articulated Human-Object Interaction [61.01135739641217]
CHAIRSは16.2時間の多目的相互作用からなる大規模な動きキャプチャーされたf-AHOIデータセットである。
CHAIRSは、対話的なプロセス全体を通して、人間と明瞭なオブジェクトの両方の3Dメッシュを提供する。
HOIにおける幾何学的関係を学習することにより,人間のポーズ推定を利用した最初のモデルが考案された。
論文 参考訳(メタデータ) (2022-12-20T19:50:54Z) - Reconstructing Action-Conditioned Human-Object Interactions Using
Commonsense Knowledge Priors [42.17542596399014]
本稿では,画像から人-物間相互作用の多種多様な3次元モデルを推定する手法を提案する。
提案手法は,大規模言語モデルから高レベルのコモンセンス知識を抽出する。
本研究では,大規模な人-物間相互作用データセットを用いて,推定された3次元モデルを定量的に評価する。
論文 参考訳(メタデータ) (2022-09-06T13:32:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。