論文の概要: MeshMimic: Geometry-Aware Humanoid Motion Learning through 3D Scene Reconstruction
- arxiv url: http://arxiv.org/abs/2602.15733v1
- Date: Tue, 17 Feb 2026 17:09:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.136351
- Title: MeshMimic: Geometry-Aware Humanoid Motion Learning through 3D Scene Reconstruction
- Title(参考訳): MeshMimic:3次元シーン再構成による幾何学的ヒューマノイド運動学習
- Authors: Qiang Zhang, Jiahao Ma, Peiran Liu, Shuai Shi, Zeran Su, Zifan Wang, Jingkai Sun, Wei Cui, Jialin Yu, Gang Han, Wen Zhao, Pihai Sun, Kangning Yin, Jiaxu Wang, Jiahang Cao, Lingfeng Zhang, Hao Cheng, Xiaoshuai Hao, Yiding Ji, Junwei Liang, Jian Tang, Renjing Xu, Yijie Guo,
- Abstract要約: MeshMimicは、3Dシーンの再構築とインテリジェンスを組み込んだ革新的なフレームワークで、ヒューマノイドロボットがビデオから直接「モーション・テライン」インタラクションを学習できるようにする。
現状の3次元視覚モデルを活用することで、我々のフレームワークは、人間の軌跡と基礎となる地形や物体の3次元幾何学の両方を正確にセグメント化し再構築する。
- 参考スコア(独自算出の注目度): 54.36564144414704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humanoid motion control has witnessed significant breakthroughs in recent years, with deep reinforcement learning (RL) emerging as a primary catalyst for achieving complex, human-like behaviors. However, the high dimensionality and intricate dynamics of humanoid robots make manual motion design impractical, leading to a heavy reliance on expensive motion capture (MoCap) data. These datasets are not only costly to acquire but also frequently lack the necessary geometric context of the surrounding physical environment. Consequently, existing motion synthesis frameworks often suffer from a decoupling of motion and scene, resulting in physical inconsistencies such as contact slippage or mesh penetration during terrain-aware tasks. In this work, we present MeshMimic, an innovative framework that bridges 3D scene reconstruction and embodied intelligence to enable humanoid robots to learn coupled "motion-terrain" interactions directly from video. By leveraging state-of-the-art 3D vision models, our framework precisely segments and reconstructs both human trajectories and the underlying 3D geometry of terrains and objects. We introduce an optimization algorithm based on kinematic consistency to extract high-quality motion data from noisy visual reconstructions, alongside a contact-invariant retargeting method that transfers human-environment interaction features to the humanoid agent. Experimental results demonstrate that MeshMimic achieves robust, highly dynamic performance across diverse and challenging terrains. Our approach proves that a low-cost pipeline utilizing only consumer-grade monocular sensors can facilitate the training of complex physical interactions, offering a scalable path toward the autonomous evolution of humanoid robots in unstructured environments.
- Abstract(参考訳): 近年のヒューマノイド運動制御は、複雑な人間のような行動を達成するための主要な触媒として深層強化学習(英語版) (RL) が登場し、大きなブレークスルーをみせている。
しかしながら、ヒューマノイドロボットの高次元と複雑なダイナミクスは、手動の動作設計を非現実的にし、高価なモーションキャプチャ(MoCap)データに大きく依存する。
これらのデータセットは、取得するのにコストがかかるだけでなく、周囲の物理的環境に必要な幾何学的コンテキストが欠如していることが多い。
その結果、既存の動き合成フレームワークは、しばしば動きとシーンの分離に悩まされ、地形認識タスク中の接触すべりやメッシュ浸透などの物理的不整合が生じる。
本研究では、3Dシーンの再構築とインテリジェンスを組み込んだ革新的なフレームワークであるMeshMimicを紹介する。
現状の3次元視覚モデルを活用することで、我々のフレームワークは、人間の軌跡と基礎となる地形や物体の3次元幾何学の両方を正確にセグメント化し再構築する。
本研究では,人間-環境相互作用の特徴をヒューマノイドエージェントに伝達する接触不変リターゲティング手法とともに,ノイズの多い視覚再構成から高品質な動きデータを抽出するための運動整合性に基づく最適化アルゴリズムを提案する。
実験により、MeshMimicは、多様な、困難な地形で堅牢で、非常にダイナミックなパフォーマンスを実現することが示された。
我々のアプローチは、コンシューマグレードの単分子センサーのみを利用した低コストパイプラインは、複雑な物理的相互作用のトレーニングを容易にし、非構造環境におけるヒューマノイドロボットの自律的進化に向けたスケーラブルな経路を提供することができることを証明している。
関連論文リスト
- Decoupled Generative Modeling for Human-Object Interaction Synthesis [35.78156236836254]
既存のアプローチでは、しばしば手動で指定した中間のウェイポイントを必要とし、最適化の目的を1つのネットワークに配置する。
DecHOI(Decoupled Generative Modeling for Human-Object Interaction Synthesis)を提案する。
軌道生成装置は、まず、所定のウェイポイントを伴わずに人や物体の軌道を生成し、これらの経路に作用生成条件を設けて詳細な動作を合成する。
論文 参考訳(メタデータ) (2025-12-22T05:33:59Z) - PhysiInter: Integrating Physical Mapping for High-Fidelity Human Interaction Generation [35.563978243352764]
人間のインタラクション生成パイプライン全体に統合された物理マッピングを導入する。
具体的には、物理に基づくシミュレーション環境での運動模倣は、ターゲットの動きを物理的に有効な空間に投影するために使用される。
実験の結果,人間の運動の質は3%~89%向上した。
論文 参考訳(メタデータ) (2025-06-09T06:04:49Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - GraMMaR: Ground-aware Motion Model for 3D Human Motion Reconstruction [61.833152949826946]
本研究では,GraMMaRという3次元人体動作再構成のための新しいグラウンド・アウェア・モーション・モデルを提案する。
GraMMaRは、動きシーケンスの各時間ステップにおいて、ポーズにおける遷移の分布と、各関節面と接地面の間の相互作用を学習する。
運動と地面への距離変化との整合性を明確に促進するように訓練されている。
論文 参考訳(メタデータ) (2023-06-29T07:22:20Z) - Locomotion-Action-Manipulation: Synthesizing Human-Scene Interactions in
Complex 3D Environments [11.87902527509297]
複雑な屋内環境下での自然および可塑性な長期的人間の運動を合成するために,LAMA, Locomotion-Action-Manipulationを提案する。
従来の3Dシーンをスキャンして「ペア化」する手法とは異なり、人間のモーションキャプチャーデータを合成にのみ使用することにより、テスト時間最適化として問題を定式化する。
論文 参考訳(メタデータ) (2023-01-09T18:59:16Z) - MotionBERT: A Unified Perspective on Learning Human Motion
Representations [46.67364057245364]
本研究では,大規模・異種データ資源から人の動き表現を学習することで,人間中心のビデオタスクに取り組むための統一的な視点を示す。
本研究では,ノイズのある部分的な2次元観測から基礎となる3次元運動を復元するために,モーションエンコーダを訓練する事前学習段階を提案する。
動作エンコーダをDST(Dual-stream Spatio-temporal Transformer)ニューラルネットワークで実装する。
論文 参考訳(メタデータ) (2022-10-12T19:46:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。