論文の概要: Rendering Multi-Human and Multi-Object with 3D Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2604.02996v1
- Date: Fri, 03 Apr 2026 12:20:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.467983
- Title: Rendering Multi-Human and Multi-Object with 3D Gaussian Splatting
- Title(参考訳): 3次元ガウススプレイティングによるマルチヒューマンとマルチオブジェクトのレンダリング
- Authors: Weiquan Wang, Jun Xiao, Feifei Shao, Yi Yang, Yueting Zhuang, Long Chen,
- Abstract要約: ロボット工学とVR/ARのための高忠実なデジタルツインを作るには、複数の対話する人間とオブジェクトをスパースビューから再構築することが不可欠である。
この問題はマルチHuman Multi-Objectレンダリングと呼ばれ、2つの重要な障害を生じさせる。
3D Splatting上に構築された新しい階層型フレームワークMM-GSを提案する。
- 参考スコア(独自算出の注目度): 47.35917581534084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing dynamic scenes with multiple interacting humans and objects from sparse-view inputs is a critical yet challenging task, essential for creating high-fidelity digital twins for robotics and VR/AR. This problem, which we term Multi-Human Multi-Object (MHMO) rendering, presents two significant obstacles: achieving view-consistent representations for individual instances under severe mutual occlusion, and explicitly modeling the complex and combinatorial dependencies that arise from their interactions. To overcome these challenges, we propose MM-GS, a novel hierarchical framework built upon 3D Gaussian Splatting. Our method first employs a Per-Instance Multi-View Fusion module to establish a robust and consistent representation for each instance by aggregating visual information across all available views. Subsequently, a Scene-Level Instance Interaction module operates on a global scene graph to reason about relationships between all participants, refining their attributes to capture subtle interaction effects. Extensive experiments on challenging datasets demonstrate that our method significantly outperforms strong baselines, producing state-of-the-art results with high-fidelity details and plausible inter-instance contacts.
- Abstract(参考訳): 複数の対話する人間とオブジェクトをスパースビューから再構築することは、ロボットとVR/ARのための高忠実なデジタルツインを作るのに不可欠である。
この問題はMHMO(Multi-Human Multi-Object)レンダリング(MHMO)と呼ばれるもので、2つの大きな障害を生じさせる。
これらの課題を克服するために,3次元ガウス平板上に構築された新しい階層型フレームワークMM-GSを提案する。
提案手法では,まずPer-Instance Multi-View Fusionモジュールを用いて,利用可能なすべてのビューに視覚情報を集約することにより,各インスタンスに対して堅牢で一貫した表現を確立する。
その後、Scene-Level Instance Interactionモジュールがグローバルなシーングラフで動作し、すべての参加者間の関係を推論し、属性を修正して微妙なインタラクション効果をキャプチャする。
挑戦的なデータセットに関する大規模な実験により、我々の手法は強いベースラインを著しく上回り、高い忠実度の詳細ともっともらしいインスタンス・コンタクトを持つ最先端の結果が得られた。
関連論文リスト
- TacUMI: A Multi-Modal Universal Manipulation Interface for Contact-Rich Tasks [35.05859151174601]
我々は、ハンドヘルドデモデバイスUniversal Manipulation Interface(UMI)のアイデアに基づいて構築する。
本稿では,ViTacセンサ,力トルクセンサ,ポーズトラッカーをロボット互換グリップパーに組み込んだマルチモーダルデータ収集システムであるTacUMIを紹介する。
次に、時間モデルを利用して意味的に意味のあるイベント境界を検出するマルチモーダルセグメンテーションフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-21T00:14:28Z) - Asset-Driven Sematic Reconstruction of Dynamic Scene with Multi-Human-Object Interactions [41.29588736908775]
ダイナミックシーンの3Dジオメトリモデリングは、AR/VR、ゲーム、エンボディAIといったアプリケーションに不可欠である。
本研究では,1)シーン要素の高忠実度メッシュを生成するための3次元生成モデルの利点と,2)シーン要素のセマンティック・アウェアな変形,3)GSに基づく個々の要素の最適化の利点を組み合わせたハイブリッドアプローチを提案する。
本手法は,これらのシーンのより優れた表面再構成を実現する上で,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2025-11-29T16:36:22Z) - DIPO: Dual-State Images Controlled Articulated Object Generation Powered by Diverse Data [67.99373622902827]
DIPOは、一対のイメージから調音された3Dオブジェクトを制御可能な生成するためのフレームワークである。
本稿では,イメージペア間の関係を捉え,部分配置と関節パラメータを生成するデュアルイメージ拡散モデルを提案する。
複雑な3Dオブジェクトの大規模データセットであるPM-Xについて,レンダリング画像,URDFアノテーション,テキスト記述を伴って提案する。
論文 参考訳(メタデータ) (2025-05-26T18:55:14Z) - SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [79.58755811919366]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - SM$^3$: Self-Supervised Multi-task Modeling with Multi-view 2D Images
for Articulated Objects [24.737865259695006]
そこで本研究では, SM$3$と呼ばれる自己教師型相互作用認識手法を提案する。
取得した2次元画像から3次元の幾何学とテクスチャを構築することで、SM$3$は可動部と関節パラメータの統合最適化を実現する。
SM$3$は、様々なカテゴリやオブジェクトにわたる既存のベンチマークを上回り、実際のシナリオにおける適応性は、徹底的に検証されている。
論文 参考訳(メタデータ) (2024-01-17T11:15:09Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。