Fugu-MT 論文翻訳(概要): Realistic Full-Body Tracking from Sparse Observations via Joint-Level Modeling

論文の概要: Realistic Full-Body Tracking from Sparse Observations via Joint-Level Modeling

arxiv url: http://arxiv.org/abs/2308.08855v1
Date: Thu, 17 Aug 2023 08:27:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-21 17:26:58.863735
Title: Realistic Full-Body Tracking from Sparse Observations via Joint-Level Modeling
Title（参考訳）: ジョイントレベルモデリングによるスパース観測による実物追跡
Authors: Xiaozheng Zheng, Zhuo Su, Chao Wen, Zhou Xue, Xiaojie Jin
Abstract要約: 頭部と手の3つの追跡信号だけで、正確でスムーズな全身運動を得ることができる2段階のフレームワークを提案する。本フレームワークは,第1段階の関節レベル特徴を明示的にモデル化し,第2段階の関節レベル相関を捉えるために,空間的および時間的トランスフォーマーブロックの交互化に時間的トークンとして利用する。 AMASSモーションデータセットと実捕集データに関する広範な実験により,提案手法は既存の手法と比較して,より正確で滑らかな動きを実現することができることを示す。
参考スコア（独自算出の注目度）: 13.284947022380404
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: To bridge the physical and virtual worlds for rapidly developed VR/AR applications, the ability to realistically drive 3D full-body avatars is of great significance. Although real-time body tracking with only the head-mounted displays (HMDs) and hand controllers is heavily under-constrained, a carefully designed end-to-end neural network is of great potential to solve the problem by learning from large-scale motion data. To this end, we propose a two-stage framework that can obtain accurate and smooth full-body motions with the three tracking signals of head and hands only. Our framework explicitly models the joint-level features in the first stage and utilizes them as spatiotemporal tokens for alternating spatial and temporal transformer blocks to capture joint-level correlations in the second stage. Furthermore, we design a set of loss terms to constrain the task of a high degree of freedom, such that we can exploit the potential of our joint-level modeling. With extensive experiments on the AMASS motion dataset and real-captured data, we validate the effectiveness of our designs and show our proposed method can achieve more accurate and smooth motion compared to existing approaches.
Abstract（参考訳）: 3Dフルボディアバターを現実的に駆動する能力は、急速に発達したVR/ARアプリケーションのための物理的および仮想世界を橋渡しする上で非常に重要である。ヘッドマウントディスプレイ(HMD)とハンドコントローラのみを用いたリアルタイムの身体追跡は過小評価されているが、注意深く設計されたエンドツーエンドのニューラルネットワークは、大規模なモーションデータから学習することで、この問題を解決する大きな可能性を持っている。そこで本研究では,頭部と手の3つのトラッキング信号のみを用いて,高精度で滑らかな全身動作を実現する2段階フレームワークを提案する。本フレームワークは,第1段階の関節レベル特徴を明示的にモデル化し,空間および時間的トランスフォーマーブロックの交互化のための時空間トークンとして利用し,第2段階の関節レベル相関を捉える。さらに、我々は、高次自由度タスクを制約するための損失項のセットを設計し、共同レベルのモデリングの可能性を利用することができる。 AMASSモーションデータセットと実撮影データに関する広範な実験により,提案手法の有効性を検証し,提案手法が既存手法よりも正確かつ円滑な動作を実現することを示す。

関連論文リスト

S3MOT: Monocular 3D Object Tracking with Selective State Space Model [3.5047603107971397]
3次元空間における多物体追跡は、ロボット工学とコンピュータ応用の進歩に不可欠である。 2Dビデオストリームからの3Dアソシエーションのマイニングが難しいため、モノラルなセットアップでは依然として大きな課題である。モノクローナル3次元MOTのための不均一なキューの融合を促進するための3つの革新的な技術を提案する。
論文参考訳（メタデータ） (2025-04-25T04:45:35Z)
Mocap-2-to-3: Lifting 2D Diffusion-Based Pretrained Models for 3D Motion Capture [31.82852393452607]
Mocap-2-to-3は複雑な3D動作を2Dポーズに分解する新しいフレームワークである。我々は2次元データを活用し,多様なシナリオにおける3次元運動再構成を向上する。実世界のデータセット上でのモデルの性能を評価する。
論文参考訳（メタデータ） (2025-03-05T06:32:49Z)
Drive-1-to-3: Enriching Diffusion Priors for Novel View Synthesis of Real Vehicles [81.29018359825872]
本稿では,実世界の課題に対して,大規模な事前学習モデルを微調整するための一連の優れたプラクティスを統合する。具体的には,合成データと実運転データとの相違を考慮に入れたいくつかの戦略を開発する。我々の洞察は、先行芸術よりも新しいビュー合成のためのFIDを68.8%値下げする効果のある微調整につながる。
論文参考訳（メタデータ） (2024-12-19T03:39:13Z)
4D Contrastive Superflows are Dense 3D Representation Learners [62.433137130087445]
我々は,LiDARとカメラのペアを連続的に利用して事前学習の目的を確立するための,新しいフレームワークであるSuperFlowを紹介する。学習効率をさらに向上するため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。
論文参考訳（メタデータ） (2024-07-08T17:59:54Z)
Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文参考訳（メタデータ） (2024-06-17T07:43:53Z)
S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠であるこれまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文参考訳（メタデータ） (2024-02-22T11:40:49Z)
MOVIN: Real-time Motion Capture using a Single LiDAR [7.3228874258537875]
我々は,グローバルトラッキングを用いたリアルタイムモーションキャプチャのためのデータ駆動生成法MOVINを提案する。本フレームワークは,パフォーマーの3次元グローバル情報と局所的な関節の詳細を正確に予測する。実世界のシナリオでメソッドをデモするために,リアルタイムアプリケーションを実装した。
論文参考訳（メタデータ） (2023-09-17T16:04:15Z)
Learning Scene Flow With Skeleton Guidance For 3D Action Recognition [1.5954459915735735]
本研究は3次元行動認識のための深部時間モデルによる3次元フローシーケンスの利用を実証する。また、最も識別性の高い運動力学を学ぶために、拡張された深部骨格も導入されている。高次クロスモーダル相関を学習する2つのモデルの間には,後期融合方式が採用されている。
論文参考訳（メタデータ） (2023-06-23T04:14:25Z)
Avatars Grow Legs: Generating Smooth Human Motion from Sparse Tracking Inputs with Diffusion Model [18.139630622759636]
本稿では,低速な上体追跡信号のフルボディ追跡に特化して設計された新しい条件拡散モデル AGRoL を提案する。我々のモデルは、シンプルな多層パーセプトロン(MLP)アーキテクチャと、モーションデータのための新しい条件付け方式に基づいている。一般的な拡散アーキテクチャとは異なり、私たちのコンパクトアーキテクチャはリアルタイムで動作し、オンラインのボディトラッキングアプリケーションに適している。
論文参考訳（メタデータ） (2023-04-17T19:35:13Z)
An Effective Motion-Centric Paradigm for 3D Single Object Tracking in Point Clouds [50.19288542498838]
LiDARポイントクラウド(LiDAR SOT)における3Dシングルオブジェクトトラッキングは、自動運転において重要な役割を果たす。現在のアプローチはすべて、外観マッチングに基づくシームズパラダイムに従っている。我々は新たな視点からLiDAR SOTを扱うための動き中心のパラダイムを導入する。
論文参考訳（メタデータ） (2023-03-21T17:28:44Z)
A Dual-Masked Auto-Encoder for Robust Motion Capture with Spatial-Temporal Skeletal Token Completion [13.88656793940129]
本稿では, 3次元関節を再構成し, 個々の関節を識別するための適応的, アイデンティティを意識した三角測量モジュールを提案する。次に,D-MAE(Dual-Masked Auto-Encoder)を提案する。重大なデータ損失シナリオを扱う上で提案するモデルの能力を実証するために,高精度で挑戦的なモーションキャプチャデータセットに貢献する。
論文参考訳（メタデータ） (2022-07-15T10:00:43Z)
Towards Scale Consistent Monocular Visual Odometry by Learning from the Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文参考訳（メタデータ） (2022-03-11T01:51:54Z)
Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文参考訳（メタデータ） (2021-03-12T15:30:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。