論文の概要: Realistic Full-Body Tracking from Sparse Observations via Joint-Level
Modeling
- arxiv url: http://arxiv.org/abs/2308.08855v1
- Date: Thu, 17 Aug 2023 08:27:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 17:26:58.863735
- Title: Realistic Full-Body Tracking from Sparse Observations via Joint-Level
Modeling
- Title(参考訳): ジョイントレベルモデリングによるスパース観測による実物追跡
- Authors: Xiaozheng Zheng, Zhuo Su, Chao Wen, Zhou Xue, Xiaojie Jin
- Abstract要約: 頭部と手の3つの追跡信号だけで、正確でスムーズな全身運動を得ることができる2段階のフレームワークを提案する。
本フレームワークは,第1段階の関節レベル特徴を明示的にモデル化し,第2段階の関節レベル相関を捉えるために,空間的および時間的トランスフォーマーブロックの交互化に時間的トークンとして利用する。
AMASSモーションデータセットと実捕集データに関する広範な実験により,提案手法は既存の手法と比較して,より正確で滑らかな動きを実現することができることを示す。
- 参考スコア(独自算出の注目度): 13.284947022380404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To bridge the physical and virtual worlds for rapidly developed VR/AR
applications, the ability to realistically drive 3D full-body avatars is of
great significance. Although real-time body tracking with only the head-mounted
displays (HMDs) and hand controllers is heavily under-constrained, a carefully
designed end-to-end neural network is of great potential to solve the problem
by learning from large-scale motion data. To this end, we propose a two-stage
framework that can obtain accurate and smooth full-body motions with the three
tracking signals of head and hands only. Our framework explicitly models the
joint-level features in the first stage and utilizes them as spatiotemporal
tokens for alternating spatial and temporal transformer blocks to capture
joint-level correlations in the second stage. Furthermore, we design a set of
loss terms to constrain the task of a high degree of freedom, such that we can
exploit the potential of our joint-level modeling. With extensive experiments
on the AMASS motion dataset and real-captured data, we validate the
effectiveness of our designs and show our proposed method can achieve more
accurate and smooth motion compared to existing approaches.
- Abstract(参考訳): 3Dフルボディアバターを現実的に駆動する能力は、急速に発達したVR/ARアプリケーションのための物理的および仮想世界を橋渡しする上で非常に重要である。
ヘッドマウントディスプレイ(HMD)とハンドコントローラのみを用いたリアルタイムの身体追跡は過小評価されているが、注意深く設計されたエンドツーエンドのニューラルネットワークは、大規模なモーションデータから学習することで、この問題を解決する大きな可能性を持っている。
そこで本研究では,頭部と手の3つのトラッキング信号のみを用いて,高精度で滑らかな全身動作を実現する2段階フレームワークを提案する。
本フレームワークは,第1段階の関節レベル特徴を明示的にモデル化し,空間および時間的トランスフォーマーブロックの交互化のための時空間トークンとして利用し,第2段階の関節レベル相関を捉える。
さらに、我々は、高次自由度タスクを制約するための損失項のセットを設計し、共同レベルのモデリングの可能性を利用することができる。
AMASSモーションデータセットと実撮影データに関する広範な実験により,提案手法の有効性を検証し,提案手法が既存手法よりも正確かつ円滑な動作を実現することを示す。
関連論文リスト
- 4D Contrastive Superflows are Dense 3D Representation Learners [62.433137130087445]
我々は,LiDARとカメラのペアを連続的に利用して事前学習の目的を確立するための,新しいフレームワークであるSuperFlowを紹介する。
学習効率をさらに向上するため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。
論文 参考訳(メタデータ) (2024-07-08T17:59:54Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - MOVIN: Real-time Motion Capture using a Single LiDAR [7.3228874258537875]
我々は,グローバルトラッキングを用いたリアルタイムモーションキャプチャのためのデータ駆動生成法MOVINを提案する。
本フレームワークは,パフォーマーの3次元グローバル情報と局所的な関節の詳細を正確に予測する。
実世界のシナリオでメソッドをデモするために,リアルタイムアプリケーションを実装した。
論文 参考訳(メタデータ) (2023-09-17T16:04:15Z) - Learning Scene Flow With Skeleton Guidance For 3D Action Recognition [1.5954459915735735]
本研究は3次元行動認識のための深部時間モデルによる3次元フローシーケンスの利用を実証する。
また、最も識別性の高い運動力学を学ぶために、拡張された深部骨格も導入されている。
高次クロスモーダル相関を学習する2つのモデルの間には,後期融合方式が採用されている。
論文 参考訳(メタデータ) (2023-06-23T04:14:25Z) - Avatars Grow Legs: Generating Smooth Human Motion from Sparse Tracking
Inputs with Diffusion Model [18.139630622759636]
本稿では,低速な上体追跡信号のフルボディ追跡に特化して設計された新しい条件拡散モデル AGRoL を提案する。
我々のモデルは、シンプルな多層パーセプトロン(MLP)アーキテクチャと、モーションデータのための新しい条件付け方式に基づいている。
一般的な拡散アーキテクチャとは異なり、私たちのコンパクトアーキテクチャはリアルタイムで動作し、オンラインのボディトラッキングアプリケーションに適している。
論文 参考訳(メタデータ) (2023-04-17T19:35:13Z) - An Effective Motion-Centric Paradigm for 3D Single Object Tracking in
Point Clouds [50.19288542498838]
LiDARポイントクラウド(LiDAR SOT)における3Dシングルオブジェクトトラッキングは、自動運転において重要な役割を果たす。
現在のアプローチはすべて、外観マッチングに基づくシームズパラダイムに従っている。
我々は新たな視点からLiDAR SOTを扱うための動き中心のパラダイムを導入する。
論文 参考訳(メタデータ) (2023-03-21T17:28:44Z) - A Dual-Masked Auto-Encoder for Robust Motion Capture with
Spatial-Temporal Skeletal Token Completion [13.88656793940129]
本稿では, 3次元関節を再構成し, 個々の関節を識別するための適応的, アイデンティティを意識した三角測量モジュールを提案する。
次に,D-MAE(Dual-Masked Auto-Encoder)を提案する。
重大なデータ損失シナリオを扱う上で提案するモデルの能力を実証するために,高精度で挑戦的なモーションキャプチャデータセットに貢献する。
論文 参考訳(メタデータ) (2022-07-15T10:00:43Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。