論文の概要: SocialMirror: Reconstructing 3D Human Interaction Behaviors from Monocular Videos with Semantic and Geometric Guidance
- arxiv url: http://arxiv.org/abs/2604.13581v1
- Date: Wed, 15 Apr 2026 07:41:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.438738
- Title: SocialMirror: Reconstructing 3D Human Interaction Behaviors from Monocular Videos with Semantic and Geometric Guidance
- Title(参考訳): SocialMirror: セマンティックおよび幾何学的ガイダンスによるモノクロビデオからの3次元ヒューマンインタラクション行動の再構築
- Authors: Qi Xia, Peishan Cong, Ziyi Wang, Yujing Sun, Qin Sun, Xinge Zhu, Mao Ye, Ruigang Yang, Yuexin Ma,
- Abstract要約: 密接な相互作用シナリオにおける人間の行動の正確な再構築は、拡張現実における現実的な仮想インタラクションの実現に不可欠である。
本稿では,これらの問題に効果的に対処するための意味的および幾何学的手がかりを統合する拡散ベースのフレームワークであるSocialMirrorを提案する。
SocialMirrorはインタラクティブなヒューマンメッシュを再構築する上で,最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 49.69016078147708
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Accurately reconstructing human behavior in close-interaction scenarios is crucial for enabling realistic virtual interactions in augmented reality, precise motion analysis in sports, and natural collaborative behavior in human-robot tasks. Reliable reconstruction in these contexts significantly enhances the realism and effectiveness of AI-driven interactive applications. However, human reconstruction from monocular videos in close-interaction scenarios remains challenging due to severe mutual occlusions, leading local motion ambiguity, disrupted temporal continuity and spatial relationship error. In this paper, we propose SocialMirror, a diffusion-based framework that integrates semantic and geometric cues to effectively address these issues. Specifically, we first leverage high-level interaction descriptions generated by a vision-language model to guide a semantic-guided motion infiller, hallucinating occluded bodies and resolving local pose ambiguities. Next, we propose a sequence-level temporal refiner that enforces smooth, jitter-free motions, while incorporating geometric constraints during sampling to ensure plausible contact and spatial relationships. Evaluations on multiple interaction benchmarks show that SocialMirror achieves state-of-the-art performance in reconstructing interactive human meshes, demonstrating strong generalization across unseen datasets and in-the-wild scenarios. The code will be released upon publication.
- Abstract(参考訳): 密接な相互作用シナリオにおける人間の行動の正確な再構築は、拡張現実における現実的な仮想的相互作用の実現、スポーツにおける正確な運動分析、人間ロボットタスクにおける自然な協調行動の実現に不可欠である。
これらのコンテキストにおける信頼性の高い再構築は、AI駆動の対話型アプリケーションの現実性と有効性を大幅に向上させる。
しかし、密接な相互作用のシナリオにおける単眼ビデオからの人間の再構築は、激しい相互閉塞、局所的な動きのあいまいさ、時間的連続性の破壊、空間的関係の誤りなどにより、依然として困難である。
本稿では,これらの問題に効果的に対処するための意味的および幾何学的手がかりを統合する拡散ベースのフレームワークであるSocialMirrorを提案する。
具体的には、まず視覚言語モデルによって生成された高レベルな相互作用記述を利用して、意味誘導型モーションインフィルダーを誘導し、隠蔽体を幻覚させ、局所的なポーズの曖昧さを解消する。
次に、スムーズでジッタフリーな動きを強制するシークエンスレベルの時間分解器を提案し、サンプリング中に幾何的制約を取り入れ、妥当な接触と空間的関係を確実にする。
複数のインタラクションベンチマークの評価によると、SocialMirrorは、インタラクティブなヒューマンメッシュの再構築において最先端のパフォーマンスを実現し、目に見えないデータセットと現場シナリオをまたいだ強力な一般化を実証している。
コードは公開時に公開される。
関連論文リスト
- MeshMimic: Geometry-Aware Humanoid Motion Learning through 3D Scene Reconstruction [54.36564144414704]
MeshMimicは、3Dシーンの再構築とインテリジェンスを組み込んだ革新的なフレームワークで、ヒューマノイドロボットがビデオから直接「モーション・テライン」インタラクションを学習できるようにする。
現状の3次元視覚モデルを活用することで、我々のフレームワークは、人間の軌跡と基礎となる地形や物体の3次元幾何学の両方を正確にセグメント化し再構築する。
論文 参考訳(メタデータ) (2026-02-17T17:09:45Z) - Interact2Ar: Full-Body Human-Human Interaction Generation via Autoregressive Diffusion Models [80.28579390566298]
テキスト条件付き自己回帰拡散モデルであるInteract2Arを導入する。
ハンドキネマティクスは専用のパラレルブランチを通じて組み込まれ、高忠実度フルボディ生成を可能にする。
我々のモデルは、時間的動きの合成、外乱へのリアルタイム適応、ディヤディックからマルチパーソンシナリオへの拡張など、一連のダウンストリームアプリケーションを可能にする。
論文 参考訳(メタデータ) (2025-12-22T18:59:50Z) - Proactive Scene Decomposition and Reconstruction [22.845403993200932]
本稿では,シーンのプロアクティブな分解と再構築の新たな課題を定式化する。
我々は人間と物体の相互作用を反復的に分解し、環境を再構築する。
提案システムは動的環境における複数のタスクを効果的に統合する。
論文 参考訳(メタデータ) (2025-10-17T23:57:33Z) - MoReact: Generating Reactive Motion from Textual Descriptions [57.642436102978245]
MoReactは拡散に基づく手法で、グローバルな軌跡と局所的な動きを連続的に引き離すように設計されている。
2人の動作データセットから適応したデータを用いて,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-09-28T14:31:41Z) - Towards Immersive Human-X Interaction: A Real-Time Framework for Physically Plausible Motion Synthesis [51.95817740348585]
Human-Xは、様々な実体をまたいだ没入的で物理的に妥当なヒューマンインタラクションを可能にするために設計された、新しいフレームワークである。
本手法は, 自己回帰型反応拡散プランナを用いて, リアルタイムに反応と反応を同時予測する。
我々のフレームワークは、人間とロボットのインタラクションのための仮想現実インターフェースを含む、現実世界のアプリケーションで検証されている。
論文 参考訳(メタデータ) (2025-08-04T06:35:48Z) - Guiding Human-Object Interactions with Rich Geometry and Relations [21.528466852204627]
既存の手法では、物体の遠心点や人間に最も近い点のような単純化された物体表現に頼り、物理的に可算な運動を達成する。
ROGは、HOIに固有の関係をリッチな幾何学的詳細で表現する新しいフレームワークである。
ROGは, 合成HOIのリアリズム評価と意味的精度において, 最先端の手法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-03-26T02:57:18Z) - GraMMaR: Ground-aware Motion Model for 3D Human Motion Reconstruction [61.833152949826946]
本研究では,GraMMaRという3次元人体動作再構成のための新しいグラウンド・アウェア・モーション・モデルを提案する。
GraMMaRは、動きシーケンスの各時間ステップにおいて、ポーズにおける遷移の分布と、各関節面と接地面の間の相互作用を学習する。
運動と地面への距離変化との整合性を明確に促進するように訓練されている。
論文 参考訳(メタデータ) (2023-06-29T07:22:20Z) - RobustFusion: Robust Volumetric Performance Reconstruction under
Human-object Interactions from Monocular RGBD Stream [27.600873320989276]
現実のシナリオでは、さまざまなオブジェクトと複雑な相互作用を持つ人間のパフォーマンスの高品質の4D再構築が不可欠です。
近年の進歩は、信頼性の高い性能回復には至っていない。
人間と物体のインタラクションシナリオのための堅牢なボリュームパフォーマンス再構築システムであるRobustFusionを提案する。
論文 参考訳(メタデータ) (2021-04-30T08:41:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。