論文の概要: ProxyCap: Real-time Monocular Full-body Capture in World Space via
Human-Centric Proxy-to-Motion Learning
- arxiv url: http://arxiv.org/abs/2307.01200v2
- Date: Wed, 13 Dec 2023 15:26:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 04:43:08.735877
- Title: ProxyCap: Real-time Monocular Full-body Capture in World Space via
Human-Centric Proxy-to-Motion Learning
- Title(参考訳): proxycap:人間中心のproxy-to-motion learningによる世界空間でのリアルタイムモノキュラーフルボディキャプチャ
- Authors: Yuxiang Zhang, Hongwen Zhang, Liangxiao Hu, Jiajun Zhang, Hongwei Yi,
Shengping Zhang, Yebin Liu
- Abstract要約: 本稿では,世界空間の動きを学習するための人間中心のプロキシ・ツー・モーション学習スキームであるProxyCapを紹介する。
我々のネットワークは人間中心の視点から人間の動きを学ぶように設計されている。
本研究では,世界空間における足場接触を可能とした実時間単眼フルボディキャプチャシステムについて紹介する。
- 参考スコア(独自算出の注目度): 47.228139909747235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning-based approaches to monocular motion capture have recently shown
promising results by learning to regress in a data-driven manner. However, due
to the challenges in data collection and network designs, it remains
challenging for existing solutions to achieve real-time full-body capture while
being accurate in world space. In this work, we introduce ProxyCap, a
human-centric proxy-to-motion learning scheme to learn world-space motions from
a proxy dataset of 2D skeleton sequences and 3D rotational motions. Such proxy
data enables us to build a learning-based network with accurate world-space
supervision while also mitigating the generalization issues. For more accurate
and physically plausible predictions in world space, our network is designed to
learn human motions from a human-centric perspective, which enables the
understanding of the same motion captured with different camera trajectories.
Moreover, a contact-aware neural motion descent module is proposed in our
network so that it can be aware of foot-ground contact and motion misalignment
with the proxy observations. With the proposed learning-based solution, we
demonstrate the first real-time monocular full-body capture system with
plausible foot-ground contact in world space even using hand-held moving
cameras.
- Abstract(参考訳): モノクルモーションキャプチャーに対する学習ベースのアプローチは、最近データ駆動方式で回帰学習することで有望な結果を示している。
しかし、データ収集とネットワーク設計の課題のため、既存のソリューションが世界規模で正確でありながら、リアルタイムのフルボディキャプチャを実現することは依然として困難である。
本研究では,2次元骨格列と3次元回転運動のプロキシデータセットから世界空間の動きを学習する,人間中心のプロキシ・ツー・モーション学習スキームであるProxyCapを紹介する。
このようなプロキシデータにより,世界空間の正確な監視を行うとともに,一般化問題を緩和する学習ネットワークを構築することができる。
宇宙空間におけるより正確で物理的に可能な予測のために、我々のネットワークは人間中心の視点から人間の動きを学習するように設計されている。
さらに,我々のネットワーク上では,接触認識型神経運動降下モジュールが提案されている。
提案した学習ベースソリューションを用いて,手持ちの移動カメラを用いても,世界空間での足場接触が可能な実時間単眼フルボディキャプチャシステムを実演した。
関連論文リスト
- Universal Humanoid Motion Representations for Physics-Based Control [71.46142106079292]
物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。
まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。
次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文 参考訳(メタデータ) (2023-10-06T20:48:43Z) - MotionBERT: A Unified Perspective on Learning Human Motion
Representations [46.67364057245364]
本研究では,大規模・異種データ資源から人の動き表現を学習することで,人間中心のビデオタスクに取り組むための統一的な視点を示す。
本研究では,ノイズのある部分的な2次元観測から基礎となる3次元運動を復元するために,モーションエンコーダを訓練する事前学習段階を提案する。
動作エンコーダをDST(Dual-stream Spatio-temporal Transformer)ニューラルネットワークで実装する。
論文 参考訳(メタデータ) (2022-10-12T19:46:25Z) - DexTransfer: Real World Multi-fingered Dexterous Grasping with Minimal
Human Demonstrations [51.87067543670535]
本研究では,少数の人間によるデモンストレーションを行い,見えない物体のポーズを学習するロボット学習システムを提案する。
我々は,物体の点群を入力として捉え,物体を異なる初期ロボット状態から把握するための連続的な動作を予測する,厳密な把握ポリシーを訓練する。
我々のデータセットから学んだポリシーは、シミュレーションと現実世界の両方で見えないオブジェクトのポーズをうまく一般化することができる。
論文 参考訳(メタデータ) (2022-09-28T17:51:49Z) - NavDreams: Towards Camera-Only RL Navigation Among Humans [35.57943738219839]
我々は,アタリゲームにおけるモデリングと学習の方針を示す世界モデルの概念が,カメラによるナビゲーション問題にも適用できるかどうかを考察する。
我々は、ロボットが目標を達成するために衝突することなく、静的で動く人間を通り過ぎなければならないシミュレーション環境を作成する。
現状の手法はナビゲーション問題の解決に成功でき、将来の画像系列の夢のような予測を生成することができる。
論文 参考訳(メタデータ) (2022-03-23T09:46:44Z) - Practical Imitation Learning in the Real World via Task Consistency Loss [18.827979446629296]
本稿では,機能レベルと行動予測レベルの両方において,シミュレートと実際のアライメントを促進する自己監督的損失を提案する。
我々は、シミュレートとリアルで遠隔操作されたデモンストレーションを16.2時間しか使っていない10のシーンで80%の成功を達成した。
論文 参考訳(メタデータ) (2022-02-03T21:43:06Z) - GLAMR: Global Occlusion-Aware Human Mesh Recovery with Dynamic Cameras [99.07219478953982]
ダイナミックカメラで記録したモノクロビデオから3次元グローバルなヒューマンメッシュリカバリのためのアプローチを提案する。
われわれはまず,視覚的動作に基づいて隠蔽されたヒトの身体運動を自己回帰的に埋め込む,深部再生運動充填装置を提案する。
従来の研究とは対照的に,我々の手法はダイナミックカメラを用いても,一貫したグローバル座標で人間のメッシュを再構築する。
論文 参考訳(メタデータ) (2021-12-02T18:59:54Z) - Rapid Exploration for Open-World Navigation with Latent Goal Models [78.45339342966196]
多様なオープンワールド環境における自律的な探索とナビゲーションのためのロボット学習システムについて述べる。
本手法のコアとなるのは、画像の非パラメトリックトポロジカルメモリとともに、距離と行動の学習された潜在変数モデルである。
学習方針を規則化するために情報ボトルネックを使用し、(i)目標のコンパクトな視覚的表現、(ii)一般化能力の向上、(iii)探索のための実行可能な目標をサンプリングするためのメカニズムを提供する。
論文 参考訳(メタデータ) (2021-04-12T23:14:41Z) - Hindsight for Foresight: Unsupervised Structured Dynamics Models from
Physical Interaction [24.72947291987545]
エージェントが世界と対話することを学ぶための鍵となる課題は、オブジェクトの物理的性質を推論することである。
本研究では,ラベルのない3次元点群と画像から直接,ロボットのインタラクションのダイナミクスをモデル化するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-02T11:04:49Z) - Visual Navigation Among Humans with Optimal Control as a Supervisor [72.5188978268463]
そこで本研究では,学習に基づく知覚とモデルに基づく最適制御を組み合わせることで,人間間をナビゲートする手法を提案する。
私たちのアプローチは、新しいデータ生成ツールであるHumANavによって実現されています。
学習したナビゲーションポリシーは、将来の人間の動きを明示的に予測することなく、人間に予測し、反応できることを実証する。
論文 参考訳(メタデータ) (2020-03-20T16:13:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。