Fugu-MT 論文翻訳(概要): Learning Variational Motion Prior for Video-based Motion Capture

論文の概要: Learning Variational Motion Prior for Video-based Motion Capture

arxiv url: http://arxiv.org/abs/2210.15134v1
Date: Thu, 27 Oct 2022 02:45:48 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-28 14:22:10.860296
Title: Learning Variational Motion Prior for Video-based Motion Capture
Title（参考訳）: 映像ベースモーションキャプチャに先立つ変分運動の学習
Authors: Xin Chen, Zhuo Su, Lingbo Yang, Pei Cheng, Lan Xu, Bin Fu, and Gang Yu
Abstract要約: ビデオに基づくモーションキャプチャーのための新しい変分動作先行学習手法(VMP)を提案する。我々のフレームワークはフレームワイドポーズ推定における時間的ジッタリングと障害モードを効果的に削減できる。公開データセットとインザワイルドビデオの両方を用いた実験により、我々のフレームワークの有効性と一般化能力が実証された。
参考スコア（独自算出の注目度）: 31.79649766268877
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Motion capture from a monocular video is fundamental and crucial for us humans to naturally experience and interact with each other in Virtual Reality (VR) and Augmented Reality (AR). However, existing methods still struggle with challenging cases involving self-occlusion and complex poses due to the lack of effective motion prior modeling. In this paper, we present a novel variational motion prior (VMP) learning approach for video-based motion capture to resolve the above issue. Instead of directly building the correspondence between the video and motion domain, We propose to learn a generic latent space for capturing the prior distribution of all natural motions, which serve as the basis for subsequent video-based motion capture tasks. To improve the generalization capacity of prior space, we propose a transformer-based variational autoencoder pretrained over marker-based 3D mocap data, with a novel style-mapping block to boost the generation quality. Afterward, a separate video encoder is attached to the pretrained motion generator for end-to-end fine-tuning over task-specific video datasets. Compared to existing motion prior models, our VMP model serves as a motion rectifier that can effectively reduce temporal jittering and failure modes in frame-wise pose estimation, leading to temporally stable and visually realistic motion capture results. Furthermore, our VMP-based framework models motion at sequence level and can directly generate motion clips in the forward pass, achieving real-time motion capture during inference. Extensive experiments over both public datasets and in-the-wild videos have demonstrated the efficacy and generalization capability of our framework.
Abstract（参考訳）: モノクロビデオからのモーションキャプチャは、人間がVR(Virtual Reality)やAR(Augmented Reality)で自然に体験し、相互に対話する上で、基本的で不可欠です。しかし、既存の手法は、モデリング前の効果的な動きの欠如により、自己排除と複雑なポーズを含む難題に苦慮している。本稿では,この問題を解決するために,ビデオベースモーションキャプチャーのための新しい変分動作先行学習手法を提案する。映像と動き領域の対応性を直接構築する代わりに、すべての自然な動きの事前分布を捉えるための一般的な潜在空間を学習することを提案する。先行空間の一般化能力を向上させるために,マーカーベースの3Dモキャップデータに事前学習したトランスフォーマーベースの変分オートエンコーダを提案する。その後、個別のビデオエンコーダを予め訓練されたモーションジェネレータに取り付け、タスク固有のビデオデータセットをエンドツーエンドで微調整する。既存の運動先行モデルと比較して,vmpモデルはフレーム毎のポーズ推定における時間的ジッタと故障モードを効果的に低減し,時間的に安定かつ視覚的なモーションキャプチャ結果をもたらす運動整流器として機能する。さらに,vmpベースのフレームワークはシーケンスレベルで動作をモデル化し,フォワードパス内で直接モーションクリップを生成し,推論中にリアルタイムモーションキャプチャを実現する。パブリックデータセットとインザワイルドビデオの両方に対する大規模な実験により、我々のフレームワークの有効性と一般化能力が実証された。

関連論文リスト

Masked Modeling for Human Motion Recovery Under Occlusions [21.05382087890133]
MoRoは、ビデオコンディショニングタスクとしてモーション再構成を定式化する、エンドツーエンドの生成フレームワークである。 MoRoは、1つのH200 GPU上で70FPSのリアルタイム推論を実現する。
論文参考訳（メタデータ） (2026-01-22T16:22:20Z)
Motion Marionette: Rethinking Rigid Motion Transfer via Prior Guidance [26.642143303176997]
Motion Marionetteは、モノクルソースビデオからシングルビューターゲット画像への厳格なモーション転送のためのフレームワークである。動画から動き軌跡を抽出して空間時間(SpaT)を予め構築する。結果の速度場は、効率的なビデオ制作に柔軟に利用することができる。
論文参考訳（メタデータ） (2025-11-25T04:34:42Z)
MotionRAG: Motion Retrieval-Augmented Image-to-Video Generation [44.524568858995586]
MotionRAGは、関連する参照ビデオから動きの先行を適応させることで、モーションリアリズムを強化する検索強化フレームワークである。提案手法は,複数のドメインや様々なベースモデルに対して,推論時の計算オーバーヘッドを無視できるような大幅な改善を実現している。
論文参考訳（メタデータ） (2025-09-30T15:26:04Z)
ATI: Any Trajectory Instruction for Controllable Video Generation [25.249489701215467]
本稿では、カメラの動き、オブジェクトレベルの翻訳、きめ細かい局所的な動きをシームレスに統合する、動画生成におけるモーション制御のための統一的なフレームワークを提案する。提案手法は,事前学習した画像-映像生成モデルの潜在空間にユーザ定義トラジェクトリを投影することにより,凝集性のある解を提供する。
論文参考訳（メタデータ） (2025-05-28T23:49:18Z)
GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文参考訳（メタデータ） (2025-05-02T17:59:55Z)
MotionDiff: Training-free Zero-shot Interactive Motion Editing via Flow-assisted Multi-view Diffusion [20.142107033583027]
MotionDiffは、複雑な多視点モーション編集に光フローを利用する、トレーニング不要なゼロショット拡散法である。これは、高品質な多視点一貫した運動結果を達成するために、他の物理学ベースの生成運動編集法よりも優れている。 MotionDiffは再トレーニングを必要としないので、ユーザは様々なダウンストリームタスクに便利に適応できる。
論文参考訳（メタデータ） (2025-03-22T08:32:56Z)
A Self-supervised Motion Representation for Portrait Video Generation [19.56640370303683]
本稿では,コンパクトかつ表現力のある動き表現であるセマンティックラテントモーション(SeMo)を提案する。提案手法は,高品質な視覚的結果と効率的な推論を両立させる。我々のアプローチは、現実主義の81%の勝利率を持つ最先端モデルを上回る。
論文参考訳（メタデータ） (2025-03-13T06:43:21Z)
VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [71.9811050853964]
VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。 VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文参考訳（メタデータ） (2025-02-04T17:07:10Z)
Separate Motion from Appearance: Customizing Motion via Customizing Text-to-Video Diffusion Models [18.41701130228042]
動きのカスタマイズは、拡散モデル(DM)に適応して、同じ動きの概念の一連のビデオクリップによって指定された動きを持つビデオを生成することを目的としている。本稿では,TAP (temporal attention purification) とAH ( appearance highway) の2つの新しい手法を提案する。
論文参考訳（メタデータ） (2025-01-28T05:40:20Z)
A Plug-and-Play Physical Motion Restoration Approach for In-the-Wild High-Difficulty Motions [56.709280823844374]
動作コンテキストとビデオマスクを利用して、欠陥のある動作を修復するマスクベースの動作補正モジュール(MCM)を導入する。また,運動模倣のための事前訓練および適応手法を用いた物理ベースの運動伝達モジュール (PTM) を提案する。本手法は,高速な移動を含む映像モーションキャプチャ結果を物理的に洗練するためのプラグイン・アンド・プレイモジュールとして設計されている。
論文参考訳（メタデータ） (2024-12-23T08:26:00Z)
MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models [59.10171699717122]
MoTransは、新しいコンテキストにおける類似した動きのビデオ生成を可能にする、カスタマイズされたモーション転送方式である。再カプセル化されたプロンプトとビデオフレームからのマルチモーダル表現は、外観のモデリングを促進する。本手法は, 特定の動きパターンを, 単一の参照ビデオや複数参照ビデオから効果的に学習する。
論文参考訳（メタデータ） (2024-12-02T10:07:59Z)
E-Motion: Future Motion Simulation via Event Sequence Diffusion [86.80533612211502]
イベントベースのセンサーは、これまで達成できなかった詳細と精度で将来の動きを予測するユニークな機会を提供する可能性がある。本稿では,映像拡散モデルの強力な学習能力とイベントカメラのリッチな動作情報とを,モーションシミュレーションフレームワークとして統合することを提案する。本研究は,コンピュータビジョンシステムの解釈能力と予測精度の向上に向けた今後の研究の方向性を示唆するものである。
論文参考訳（メタデータ） (2024-10-11T09:19:23Z)
Generalizable Implicit Motion Modeling for Video Frame Interpolation [51.966062283735596]
フローベースビデオフレーム補間(VFI)における動きの重要性本稿では,動きモデリングVFIの新規かつ効果的なアプローチである一般インプリシット・モーション・モデリング(IMM)を紹介する。我々のGIMMは、正確にモデル化された動きを供給することによって、既存のフローベースVFIワークと容易に統合できる。
論文参考訳（メタデータ） (2024-07-11T17:13:15Z)
Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文参考訳（メタデータ） (2024-06-21T17:55:05Z)
MotionClone: Training-Free Motion Cloning for Controllable Video Generation [41.621147782128396]
MotionCloneは、参照ビデオから多目的なモーションコントロールビデオ生成までのモーションクローンを可能にする、トレーニング不要のフレームワークである。 MotionCloneは、大域的なカメラの動きと局所的な物体の動きの両方の習熟度を示し、動きの忠実さ、テキストアライメント、時間的一貫性の点で顕著に優れている。
論文参考訳（メタデータ） (2024-06-08T03:44:25Z)
MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion [94.66090422753126]
MotionFollowerは、ビデオモーション編集のための軽量なスコア誘導拡散モデルである。優れたモーション編集性能を提供し、大きなカメラの動きとアクションのみをサポートする。最新のモーション編集モデルであるMotionEditorと比較して、MotionFollowerはGPUメモリの約80%の削減を実現している。
論文参考訳（メタデータ） (2024-05-30T17:57:30Z)
Motion Inversion for Video Customization [31.607669029754874]
本稿では,映像モデルにおける動き表現の探索における広範なギャップに対処する,動き生成のための新しいアプローチを提案する。本研究では,ビデオから抽出した時間的コヒーレントな埋め込みの集合であるMotion Embeddingsを紹介する。我々の貢献には、カスタマイズタスクのための調整されたモーション埋め込みと、本手法の実用的メリットと有効性を示すことが含まれる。
論文参考訳（メタデータ） (2024-03-29T14:14:22Z)
Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。 SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文参考訳（メタデータ） (2024-03-22T14:47:18Z)
Traffic Video Object Detection using Motion Prior [16.63738085066699]
本稿では,先行動作を利用した2つの革新的な手法を提案し,トラヒックビデオオブジェクト検出の性能を向上する。まず、時間情報統合を導く前に動きを利用する新しい自己認識モジュールを導入する。次に、擬似ラベリング機構を用いて、半教師付き設定のためのノイズの多い擬似ラベルを除去する。
論文参考訳（メタデータ） (2023-11-16T18:59:46Z)
Fine-Grained Spatiotemporal Motion Alignment for Contrastive Video Representation Learning [16.094271750354835]
モーション情報は、堅牢で一般化されたビデオ表現に不可欠である。近年の研究では、ビデオコントラスト学習における動き情報の源として、フレーム差が採用されている。本稿では,適切な動き情報を導入可能なフレームワークを提案する。
論文参考訳（メタデータ） (2023-09-01T07:03:27Z)
Motion-DVAE: Unsupervised learning for fast human motion denoising [18.432026846779372]
本研究では,人間の動作の短期的依存を捉えるための動きであるMotion-DVAEを紹介する。我々は、Motion-DVAEとともに、回帰と最適化に基づくアプローチを統一する教師なし学習型復調手法を導入する。
論文参考訳（メタデータ） (2023-06-09T12:18:48Z)
AMP: Adversarial Motion Priors for Stylized Physics-Based Character Control [145.61135774698002]
我々は,与えられたシナリオで追跡するキャラクタの動作を選択するための完全自動化手法を提案する。キャラクタが実行するべきハイレベルなタスク目標は、比較的単純な報酬関数によって指定できる。キャラクタの動作の低レベルスタイルは、非構造化モーションクリップのデータセットによって指定できる。本システムでは,最先端のトラッキング技術に匹敵する高品質な動作を生成する。
論文参考訳（メタデータ） (2021-04-05T22:43:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。