論文の概要: World-Coordinate Human Motion Retargeting via SAM 3D Body
- arxiv url: http://arxiv.org/abs/2512.21573v1
- Date: Thu, 25 Dec 2025 08:30:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.519567
- Title: World-Coordinate Human Motion Retargeting via SAM 3D Body
- Title(参考訳): SAM 3Dボディによる世界協調型人体運動のリターゲティング
- Authors: Zhangzheng Tu, Kailun Su, Shaolong Zhu, Yukun Zheng,
- Abstract要約: 本稿では,SAM 3D Bodyを凍結した知覚バックボーンとして活用するフレームワークを提案する。
再建された動きを、キネマティクスを意識した2段逆キネマティクスパイプラインを用いて、ユニツリーG1ヒューマノイドに再ターゲティングする。
その結果,本手法は安定な世界軌道と信頼性のあるロボット表現を有することが明らかとなった。
- 参考スコア(独自算出の注目度): 0.3735787582927221
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recovering world-coordinate human motion from monocular videos with humanoid robot retargeting is significant for embodied intelligence and robotics. To avoid complex SLAM pipelines or heavy temporal models, we propose a lightweight, engineering-oriented framework that leverages SAM 3D Body (3DB) as a frozen perception backbone and uses the Momentum HumanRig (MHR) representation as a robot-friendly intermediate. Our method (i) locks the identity and skeleton-scale parameters of per tracked subject to enforce temporally consistent bone lengths, (ii) smooths per-frame predictions via efficient sliding-window optimization in the low-dimensional MHR latent space, and (iii) recovers physically plausible global root trajectories with a differentiable soft foot-ground contact model and contact-aware global optimization. Finally, we retarget the reconstructed motion to the Unitree G1 humanoid using a kinematics-aware two-stage inverse kinematics pipeline. Results on real monocular videos show that our method has stable world trajectories and reliable robot retargeting, indicating that structured human representations with lightweight physical constraints can yield robot-ready motion from monocular input.
- Abstract(参考訳): モノクロビデオからヒューマノイドロボットで世界調整された人間の動きを復元することは、インテリジェンスとロボット工学にとって重要である。
複雑なSLAMパイプラインや重度時間モデルを避けるために,SAM 3D Body (3DB) を凍結した知覚バックボーンとして活用し,ロボットフレンドリーな中間体として Momentum HumanRig (MHR) 表現を用いる軽量なエンジニアリング指向フレームワークを提案する。
我々の方法
i) 時間的に一貫した骨長を強制するために、追跡対象者の身元と骨格スケールパラメータをロックする。
(II)低次元MHR潜時空間における効率的なスライディングウインドウ最適化によるフレーム当たりの予測を円滑にし、
3) ソフトフットグラウンド接触モデルと接触認識グローバル最適化により, 物理的に可塑性なグローバルルート軌道を復元する。
最後に, キネマティクスを意識した2段階逆キネマティクスパイプラインを用いて, 再構成された動作をユニトリーG1ヒューマノイドに再ターゲティングする。
実際のモノクラービデオでは,本手法は安定な世界軌道と信頼性のあるロボット再ターゲティングを備えており,軽量な物理的制約を持つ構造的人間表現がモノクラー入力からロボット可読運動を生じさせることを示した。
関連論文リスト
- HSImul3R: Physics-in-the-Loop Reconstruction of Simulation-Ready Human-Scene Interactions [69.43316445143408]
HSImul3Rはヒトとシーンの相互作用をシミュレーション可能な3次元再構成のための統合フレームワークである。
既存の手法は知覚とシミュレーションのギャップに悩まされており、物理エンジンの不安定性と、具体化されたAIアプリケーションの失敗につながっている。
論文 参考訳(メタデータ) (2026-03-16T17:58:33Z) - SPARK: Skeleton-Parameter Aligned Retargeting on Humanoid Robots with Kinodynamic Trajectory Optimization [9.553570391005257]
人間の動きは、汎用的なヒューマノイド制御ポリシーを訓練するための豊富な事前情報を提供するが、生のデモンストレーションはロボットの運動学や力学と相容れないことが多い。
タスク空間の人的データから自然および動的に実行可能な動作参照を生成するための2段階パイプラインを提案する。
論文 参考訳(メタデータ) (2026-03-12T03:03:14Z) - EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents [85.77432303199176]
EmbodMocapは2つの動くiPhoneを使ったポータブルで安価なデータ収集パイプラインである。
私たちのキーとなるアイデアは、二重RGB-Dシーケンスを共同で校正し、人間とシーンの両方を再構築することです。
収集したデータに基づいて、我々は3つの具体的AIタスクを強化した: モノクラーヒューマン・シーン・リコンストラクション(モノクラーヒューマン・シーン・リコンストラクション)、メトリックスケールで世界空間に整合した人間とシーンを出力するフィードフォワードモデル、物理ベースのキャラクターアニメーション。
論文 参考訳(メタデータ) (2026-02-26T16:53:41Z) - MeshMimic: Geometry-Aware Humanoid Motion Learning through 3D Scene Reconstruction [54.36564144414704]
MeshMimicは、3Dシーンの再構築とインテリジェンスを組み込んだ革新的なフレームワークで、ヒューマノイドロボットがビデオから直接「モーション・テライン」インタラクションを学習できるようにする。
現状の3次元視覚モデルを活用することで、我々のフレームワークは、人間の軌跡と基礎となる地形や物体の3次元幾何学の両方を正確にセグメント化し再構築する。
論文 参考訳(メタデータ) (2026-02-17T17:09:45Z) - Robo3R: Enhancing Robotic Manipulation with Accurate Feed-Forward 3D Reconstruction [70.06600045165905]
3D空間認識は、一般的なロボット操作の基本であるが、信頼性が高く高品質な3D形状の取得は依然として困難である。
本稿では,RGB画像やロボットの状態から直接,正確な距離スケールのシーン形状をリアルタイムで予測する操作可能な3次元再構成モデルであるRobo3Rを紹介する。
我々は、ロボット操作のためのこの代替3Dセンシングモジュールの約束を示唆し、パフォーマンスの連続的な向上を観察する。
論文 参考訳(メタデータ) (2026-02-10T18:58:15Z) - Decoupled Generative Modeling for Human-Object Interaction Synthesis [35.78156236836254]
既存のアプローチでは、しばしば手動で指定した中間のウェイポイントを必要とし、最適化の目的を1つのネットワークに配置する。
DecHOI(Decoupled Generative Modeling for Human-Object Interaction Synthesis)を提案する。
軌道生成装置は、まず、所定のウェイポイントを伴わずに人や物体の軌道を生成し、これらの経路に作用生成条件を設けて詳細な動作を合成する。
論文 参考訳(メタデータ) (2025-12-22T05:33:59Z) - Implicit Kinodynamic Motion Retargeting for Human-to-humanoid Imitation Learning [35.8296790596745]
Implicit Kinodynamic Motion Retargeting (IKMR)は、キネマティクスとダイナミックスの両方を考慮した、効率的でスケーラブルなフレームワークである。
IKMRは、モーション領域マッピングを学ぶために、モーショントポロジ表現とデュアルエンコーダデコーダアーキテクチャを事前訓練する。
実物大のヒューマノイドロボットでシミュレータと実物ロボットの両方で実験を行う。
論文 参考訳(メタデータ) (2025-09-18T21:34:02Z) - Skeleton2Humanoid: Animating Simulated Characters for
Physically-plausible Motion In-betweening [59.88594294676711]
現代の深層学習に基づく運動合成アプローチは、合成された運動の物理的妥当性をほとんど考慮していない。
テスト時に物理指向の動作補正を行うシステムSkeleton2Humanoid'を提案する。
挑戦的なLaFAN1データセットの実験は、物理的妥当性と精度の両方の観点から、我々のシステムが先行手法を著しく上回っていることを示している。
論文 参考訳(メタデータ) (2022-10-09T16:15:34Z) - GLAMR: Global Occlusion-Aware Human Mesh Recovery with Dynamic Cameras [99.07219478953982]
ダイナミックカメラで記録したモノクロビデオから3次元グローバルなヒューマンメッシュリカバリのためのアプローチを提案する。
われわれはまず,視覚的動作に基づいて隠蔽されたヒトの身体運動を自己回帰的に埋め込む,深部再生運動充填装置を提案する。
従来の研究とは対照的に,我々の手法はダイナミックカメラを用いても,一貫したグローバル座標で人間のメッシュを再構築する。
論文 参考訳(メタデータ) (2021-12-02T18:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。