論文の概要: Learning Variational Motion Prior for Video-based Motion Capture
- arxiv url: http://arxiv.org/abs/2210.15134v2
- Date: Fri, 28 Oct 2022 02:32:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 12:49:33.613545
- Title: Learning Variational Motion Prior for Video-based Motion Capture
- Title(参考訳): 映像ベースモーションキャプチャに先立つ変分運動の学習
- Authors: Xin Chen, Zhuo Su, Lingbo Yang, Pei Cheng, Lan Xu, Bin Fu, and Gang Yu
- Abstract要約: ビデオに基づくモーションキャプチャーのための新しい変分動作先行学習手法(VMP)を提案する。
我々のフレームワークはフレームワイドポーズ推定における時間的ジッタリングと障害モードを効果的に削減できる。
公開データセットとインザワイルドビデオの両方を用いた実験により、我々のフレームワークの有効性と一般化能力が実証された。
- 参考スコア(独自算出の注目度): 31.79649766268877
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Motion capture from a monocular video is fundamental and crucial for us
humans to naturally experience and interact with each other in Virtual Reality
(VR) and Augmented Reality (AR). However, existing methods still struggle with
challenging cases involving self-occlusion and complex poses due to the lack of
effective motion prior modeling. In this paper, we present a novel variational
motion prior (VMP) learning approach for video-based motion capture to resolve
the above issue. Instead of directly building the correspondence between the
video and motion domain, We propose to learn a generic latent space for
capturing the prior distribution of all natural motions, which serve as the
basis for subsequent video-based motion capture tasks. To improve the
generalization capacity of prior space, we propose a transformer-based
variational autoencoder pretrained over marker-based 3D mocap data, with a
novel style-mapping block to boost the generation quality. Afterward, a
separate video encoder is attached to the pretrained motion generator for
end-to-end fine-tuning over task-specific video datasets. Compared to existing
motion prior models, our VMP model serves as a motion rectifier that can
effectively reduce temporal jittering and failure modes in frame-wise pose
estimation, leading to temporally stable and visually realistic motion capture
results. Furthermore, our VMP-based framework models motion at sequence level
and can directly generate motion clips in the forward pass, achieving real-time
motion capture during inference. Extensive experiments over both public
datasets and in-the-wild videos have demonstrated the efficacy and
generalization capability of our framework.
- Abstract(参考訳): モノクロビデオからのモーションキャプチャは、人間がVR(Virtual Reality)やAR(Augmented Reality)で自然に体験し、相互に対話する上で、基本的で不可欠です。
しかし、既存の手法は、モデリング前の効果的な動きの欠如により、自己排除と複雑なポーズを含む難題に苦慮している。
本稿では,この問題を解決するために,ビデオベースモーションキャプチャーのための新しい変分動作先行学習手法を提案する。
映像と動き領域の対応性を直接構築する代わりに、すべての自然な動きの事前分布を捉えるための一般的な潜在空間を学習することを提案する。
先行空間の一般化能力を向上させるために,マーカーベースの3Dモキャップデータに事前学習したトランスフォーマーベースの変分オートエンコーダを提案する。
その後、個別のビデオエンコーダを予め訓練されたモーションジェネレータに取り付け、タスク固有のビデオデータセットをエンドツーエンドで微調整する。
既存の運動先行モデルと比較して,vmpモデルはフレーム毎のポーズ推定における時間的ジッタと故障モードを効果的に低減し,時間的に安定かつ視覚的なモーションキャプチャ結果をもたらす運動整流器として機能する。
さらに,vmpベースのフレームワークはシーケンスレベルで動作をモデル化し,フォワードパス内で直接モーションクリップを生成し,推論中にリアルタイムモーションキャプチャを実現する。
パブリックデータセットとインザワイルドビデオの両方に対する大規模な実験により、我々のフレームワークの有効性と一般化能力が実証された。
関連論文リスト
- E-Motion: Future Motion Simulation via Event Sequence Diffusion [86.80533612211502]
イベントベースのセンサーは、これまで達成できなかった詳細と精度で将来の動きを予測するユニークな機会を提供する可能性がある。
本稿では,映像拡散モデルの強力な学習能力とイベントカメラのリッチな動作情報とを,モーションシミュレーションフレームワークとして統合することを提案する。
本研究は,コンピュータビジョンシステムの解釈能力と予測精度の向上に向けた今後の研究の方向性を示唆するものである。
論文 参考訳(メタデータ) (2024-10-11T09:19:23Z) - Generalizable Implicit Motion Modeling for Video Frame Interpolation [51.966062283735596]
フローベースビデオフレーム補間(VFI)における動きの重要性
本稿では,動きモデリングVFIの新規かつ効果的なアプローチである一般インプリシット・モーション・モデリング(IMM)を紹介する。
我々のGIMMは、正確にモデル化された動きを供給することによって、既存のフローベースVFIワークと容易に統合できる。
論文 参考訳(メタデータ) (2024-07-11T17:13:15Z) - Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。
イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文 参考訳(メタデータ) (2024-06-21T17:55:05Z) - MotionClone: Training-Free Motion Cloning for Controllable Video Generation [41.621147782128396]
MotionCloneは、参照ビデオから多目的なモーションコントロールビデオ生成までのモーションクローンを可能にする、トレーニング不要のフレームワークである。
MotionCloneは、大域的なカメラの動きと局所的な物体の動きの両方の習熟度を示し、動きの忠実さ、テキストアライメント、時間的一貫性の点で顕著に優れている。
論文 参考訳(メタデータ) (2024-06-08T03:44:25Z) - MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion [94.66090422753126]
MotionFollowerは、ビデオモーション編集のための軽量なスコア誘導拡散モデルである。
優れたモーション編集性能を提供し、大きなカメラの動きとアクションのみをサポートする。
最新のモーション編集モデルであるMotionEditorと比較して、MotionFollowerはGPUメモリの約80%の削減を実現している。
論文 参考訳(メタデータ) (2024-05-30T17:57:30Z) - Motion Inversion for Video Customization [31.607669029754874]
本稿では,映像モデルにおける動き表現の探索における広範なギャップに対処する,動き生成のための新しいアプローチを提案する。
本研究では,ビデオから抽出した時間的コヒーレントな埋め込みの集合であるMotion Embeddingsを紹介する。
我々の貢献には、カスタマイズタスクのための調整されたモーション埋め込みと、本手法の実用的メリットと有効性を示すことが含まれる。
論文 参考訳(メタデータ) (2024-03-29T14:14:22Z) - Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。
SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。
大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T14:47:18Z) - Traffic Video Object Detection using Motion Prior [16.63738085066699]
本稿では,先行動作を利用した2つの革新的な手法を提案し,トラヒックビデオオブジェクト検出の性能を向上する。
まず、時間情報統合を導く前に動きを利用する新しい自己認識モジュールを導入する。
次に、擬似ラベリング機構を用いて、半教師付き設定のためのノイズの多い擬似ラベルを除去する。
論文 参考訳(メタデータ) (2023-11-16T18:59:46Z) - Fine-Grained Spatiotemporal Motion Alignment for Contrastive Video Representation Learning [16.094271750354835]
モーション情報は、堅牢で一般化されたビデオ表現に不可欠である。
近年の研究では、ビデオコントラスト学習における動き情報の源として、フレーム差が採用されている。
本稿では,適切な動き情報を導入可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-01T07:03:27Z) - Motion-DVAE: Unsupervised learning for fast human motion denoising [18.432026846779372]
本研究では,人間の動作の短期的依存を捉えるための動きであるMotion-DVAEを紹介する。
我々は、Motion-DVAEとともに、回帰と最適化に基づくアプローチを統一する教師なし学習型復調手法を導入する。
論文 参考訳(メタデータ) (2023-06-09T12:18:48Z) - AMP: Adversarial Motion Priors for Stylized Physics-Based Character
Control [145.61135774698002]
我々は,与えられたシナリオで追跡するキャラクタの動作を選択するための完全自動化手法を提案する。
キャラクタが実行するべきハイレベルなタスク目標は、比較的単純な報酬関数によって指定できる。
キャラクタの動作の低レベルスタイルは、非構造化モーションクリップのデータセットによって指定できる。
本システムでは,最先端のトラッキング技術に匹敵する高品質な動作を生成する。
論文 参考訳(メタデータ) (2021-04-05T22:43:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。