論文の概要: DragPoser: Motion Reconstruction from Variable Sparse Tracking Signals via Latent Space Optimization
- arxiv url: http://arxiv.org/abs/2406.14567v1
- Date: Mon, 29 Apr 2024 15:00:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 07:30:49.432507
- Title: DragPoser: Motion Reconstruction from Variable Sparse Tracking Signals via Latent Space Optimization
- Title(参考訳): DragPoser: 遅延空間最適化による可変スパース追跡信号からの運動再構成
- Authors: Jose Luis Ponton, Eduard Pujol, Andreas Aristidou, Carlos Andujar, Nuria Pelechano,
- Abstract要約: DragPoserは、新しいディープラーニングベースのモーションリコンストラクションシステムである。
ハードでダイナミックな制約を正確に表現します。
自然なポーズと時間的コヒーレントな動きを生み出す。
- 参考スコア(独自算出の注目度): 1.5603779307797123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-quality motion reconstruction that follows the user's movements can be achieved by high-end mocap systems with many sensors. However, obtaining such animation quality with fewer input devices is gaining popularity as it brings mocap closer to the general public. The main challenges include the loss of end-effector accuracy in learning-based approaches, or the lack of naturalness and smoothness in IK-based solutions. In addition, such systems are often finely tuned to a specific number of trackers and are highly sensitive to missing data e.g., in scenarios where a sensor is occluded or malfunctions. In response to these challenges, we introduce DragPoser, a novel deep-learning-based motion reconstruction system that accurately represents hard and dynamic on-the-fly constraints, attaining real-time high end-effectors position accuracy. This is achieved through a pose optimization process within a structured latent space. Our system requires only one-time training on a large human motion dataset, and then constraints can be dynamically defined as losses, while the pose is iteratively refined by computing the gradients of these losses within the latent space. To further enhance our approach, we incorporate a Temporal Predictor network, which employs a Transformer architecture to directly encode temporality within the latent space. This network ensures the pose optimization is confined to the manifold of valid poses and also leverages past pose data to predict temporally coherent poses. Results demonstrate that DragPoser surpasses both IK-based and the latest data-driven methods in achieving precise end-effector positioning, while it produces natural poses and temporally coherent motion. In addition, our system showcases robustness against on-the-fly constraint modifications, and exhibits exceptional adaptability to various input configurations and changes.
- Abstract(参考訳): ユーザの動きに追従する高品質な動作再構成は、多くのセンサを備えたハイエンドなモキャップシステムによって達成できる。
しかし、このようなアニメーションの質を少ない入力装置で獲得することは、モキャップを一般大衆に近づけることによって、人気が高まっている。
主な課題は、学習ベースのアプローチにおけるエンドエフェクタの精度の喪失、あるいはIKベースのソリューションにおける自然さと滑らかさの欠如である。
さらに、そのようなシステムは特定の数のトラッカーに微調整されることが多く、センサーが隠蔽されたり機能不全になったりする場合など、欠落したデータに非常に敏感である。
これらの課題に対応するために、DragPoserという新しいディープラーニングベースのモーションリコンストラクションシステムを導入し、ハードでダイナミックなオンザフライ制約を正確に表現し、リアルタイムなハイエンドエフェクタの位置精度を実現する。
これは、構造化潜在空間内のポーズ最適化プロセスによって達成される。
我々のシステムでは、大規模な人間の動作データセット上で1回のトレーニングしか必要とせず、制約を動的に損失として定義することができ、ポーズは潜伏空間におけるこれらの損失の勾配を計算することで反復的に洗練される。
提案手法をさらに強化するために,Transformerアーキテクチャを用いて潜時空間の時間性を直接符号化するテンポラル予測ネットワークを組み込んだ。
このネットワークは、ポーズ最適化を有効なポーズの多様体に限定することを保証するとともに、過去のポーズデータを活用して時間的に一貫性のあるポーズを予測する。
その結果、DragPoserはIKベースと最新のデータ駆動方式の両方を超越し、正確なエンドエフェクタ位置決めを実現し、自然なポーズや時間的コヒーレントな動きを発生させることがわかった。
さらに、本システムは、オンザフライ制約修正に対する堅牢性を示し、様々な入力構成や変更に対して例外的な適応性を示す。
関連論文リスト
- ReMP: Reusable Motion Prior for Multi-domain 3D Human Pose Estimation and Motion Inbetweening [10.813269931915364]
我々は人体形状の完全なパラメトリックモデルの前列からリッチな動きを学習する。
我々の前者は、フレーム不足やノイズ測定で簡単にポーズを推定できる。
ReMPは、多種多様な実用的な3Dモーションデータに基づくベースライン法よりも一貫して優れている。
論文 参考訳(メタデータ) (2024-11-13T02:42:07Z) - MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - Simultaneous Map and Object Reconstruction [66.66729715211642]
本稿では,LiDARから大規模都市景観を動的に再現する手法を提案する。
我々は、最近の新しいビュー合成法から着想を得て、大域的な最適化として再構築問題を提起する。
連続動作の慎重なモデリングにより, 回転するLiDARセンサの回転シャッター効果を補うことができる。
論文 参考訳(メタデータ) (2024-06-19T23:53:31Z) - Degrees of Freedom Matter: Inferring Dynamics from Point Trajectories [28.701879490459675]
ニューラルネットワークによってパラメータ化された暗黙の運動場を学習し、同一領域内の新規点の動きを予測することを目的とする。
我々は、SIRENが提供する固有正則化を活用し、入力層を変更して時間的に滑らかな運動場を生成する。
実験では, 未知点軌道の予測におけるモデルの性能評価と, 変形を伴う時間メッシュアライメントへの応用について検討した。
論文 参考訳(メタデータ) (2024-06-05T21:02:10Z) - VICAN: Very Efficient Calibration Algorithm for Large Camera Networks [49.17165360280794]
ポースグラフ最適化手法を拡張する新しい手法を提案する。
我々は、カメラを含む二部グラフ、オブジェクトの動的進化、各ステップにおけるカメラオブジェクト間の相対変換について考察する。
我々のフレームワークは従来のPGOソルバとの互換性を維持しているが、その有効性はカスタマイズされた最適化方式の恩恵を受けている。
論文 参考訳(メタデータ) (2024-03-25T17:47:03Z) - Layout Sequence Prediction From Noisy Mobile Modality [53.49649231056857]
軌道予測は、自律運転やロボット工学などの応用における歩行者運動を理解する上で重要な役割を担っている。
現在の軌道予測モデルは、視覚的モダリティからの長い、完全な、正確に観察されたシーケンスに依存する。
本稿では,物体の障害物や視界外を,完全に視認できる軌跡を持つものと同等に扱う新しいアプローチであるLTrajDiffを提案する。
論文 参考訳(メタデータ) (2023-10-09T20:32:49Z) - Kinematic-aware Hierarchical Attention Network for Human Pose Estimation
in Videos [17.831839654593452]
従来の人間のポーズ推定手法は, 連続するフレームの特徴を活用することで, 有望な結果を示した。
ほとんどのアプローチでは、ジッターに精度を妥協し、人間の動きの時間的側面を理解しない。
キネマティックなキーポイント機能を利用するアーキテクチャを設計する。
論文 参考訳(メタデータ) (2022-11-29T01:46:11Z) - A Flexible-Frame-Rate Vision-Aided Inertial Object Tracking System for
Mobile Devices [3.4836209951879957]
本稿では,モバイルデバイス用フレキシブルフレームレートオブジェクトポーズ推定とトラッキングシステムを提案する。
高速トラッキングのためにクライアント側で慣性計測ユニット(IMU)ポーズ伝搬を行い、サーバ側でRGB画像ベースの3Dポーズ推定を行う。
我々のシステムは120FPSまでのフレキシブルフレームレートをサポートし、ローエンドデバイス上での高精度かつリアルタイムなトラッキングを保証する。
論文 参考訳(メタデータ) (2022-10-22T15:26:50Z) - Transformer Inertial Poser: Attention-based Real-time Human Motion
Reconstruction from Sparse IMUs [79.72586714047199]
本研究では,6つのIMUセンサからリアルタイムに全体動作を再構築する,注意に基づく深層学習手法を提案する。
提案手法は, 実装が簡単で, 小型でありながら, 定量的かつ質的に新しい結果が得られる。
論文 参考訳(メタデータ) (2022-03-29T16:24:52Z) - Object-based Illumination Estimation with Rendering-aware Neural
Networks [56.01734918693844]
個々の物体とその局所画像領域のRGBD外観から高速環境光推定手法を提案する。
推定照明により、仮想オブジェクトは実際のシーンと一貫性のあるシェーディングでARシナリオでレンダリングできる。
論文 参考訳(メタデータ) (2020-08-06T08:23:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。