論文の概要: Can Action be Imitated? Learn to Reconstruct and Transfer Human Dynamics
from Videos
- arxiv url: http://arxiv.org/abs/2107.11756v1
- Date: Sun, 25 Jul 2021 08:42:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-27 15:54:19.763694
- Title: Can Action be Imitated? Learn to Reconstruct and Transfer Human Dynamics
from Videos
- Title(参考訳): 行動は模倣できるのか?
ビデオからヒューマンダイナミクスの再構築と伝達を学ぶ
- Authors: Yuqian Fu, Yanwei Fu, Yu-Gang Jiang
- Abstract要約: メッシュベースのアクション模倣と呼ばれる新しいタスクを導入する。
このタスクの目標は、任意のターゲットのヒューマンメッシュが、ビデオデモで示された同じアクションを実行できるようにすることである。
高品質で詳細な人体メッシュは、我々のM-VAIを使って生成することができる。
- 参考スコア(独自算出の注目度): 95.47859525676246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given a video demonstration, can we imitate the action contained in this
video? In this paper, we introduce a novel task, dubbed mesh-based action
imitation. The goal of this task is to enable an arbitrary target human mesh to
perform the same action shown on the video demonstration. To achieve this, a
novel Mesh-based Video Action Imitation (M-VAI) method is proposed by us. M-VAI
first learns to reconstruct the meshes from the given source image frames, then
the initial recovered mesh sequence is fed into mesh2mesh, a mesh sequence
smooth module proposed by us, to improve the temporal consistency. Finally, we
imitate the actions by transferring the pose from the constructed human body to
our target identity mesh. High-quality and detailed human body meshes can be
generated by using our M-VAI. Extensive experiments demonstrate the feasibility
of our task and the effectiveness of our proposed method.
- Abstract(参考訳): デモビデオを見ると、このビデオに含まれるアクションを模倣できるだろうか?
本稿では,メッシュ型行動模倣と呼ばれる新しいタスクを提案する。
このタスクの目的は、任意のターゲットのヒューマンメッシュが、ビデオデモで示すのと同じアクションを実行できるようにすることです。
これを実現するために,M-VAI (Mesh-based Video Action Imitation) 法を提案する。
M-VAIはまず、与えられたソースイメージフレームからメッシュを再構築し、最初に回復したメッシュシーケンスを、私たちによって提案されたメッシュシーケンススムーズなモジュールである Mesh2meshに入力し、時間的一貫性を改善する。
最後に、構築された人体から対象のアイデンティティメッシュにポーズを移すことで、アクションを模倣します。
高品質で詳細な人体メッシュは、我々のM-VAIを使って生成することができる。
広範な実験により,提案手法の有効性と課題の有効性が実証された。
関連論文リスト
- DreaMoving: A Human Video Generation Framework based on Diffusion Models [30.613881402258507]
DreaMovingは拡散ベースの制御可能なビデオ生成フレームワークである。
姿勢シーケンスによって駆動される任意の場所で、ターゲットのアイデンティティが動いたり踊ったりするビデオを生成することができる。
論文 参考訳(メタデータ) (2023-12-08T15:37:17Z) - Learn the Force We Can: Enabling Sparse Motion Control in Multi-Object
Video Generation [26.292052071093945]
単一のフレームとスパース動作入力からビデオを生成する教師なしの手法を提案する。
我々の訓練されたモデルは、目に見えない現実的なオブジェクト間相互作用を生成できる。
ヨダは、制御性と映像品質の両面において、先行するアートビデオ生成の状況と同等かそれ以上であることを示す。
論文 参考訳(メタデータ) (2023-06-06T19:50:02Z) - Masked Motion Encoding for Self-Supervised Video Representation Learning [84.24773072241945]
Masked Motion MMEは、外観情報と動作情報の両方を再構成し、時間的手がかりを探索する新しい事前学習パラダイムである。
物体の位置変化や形状変化を追跡することで、人間が行動を認識することができるという事実を動機として、マスク領域におけるこれらの2種類の変化を表す運動軌跡を再構築することを提案する。
我々のMMEパラダイムで事前訓練されたモデルでは、長期的かつきめ細かな動きの詳細を予測できる。
論文 参考訳(メタデータ) (2022-10-12T11:19:55Z) - An Identity-Preserved Framework for Human Motion Transfer [3.6286856791379463]
HMT(Human Motion Transfer)は、被写体の動きを模倣することにより、被写体のためのビデオクリップを生成することを目的とする。
従来の手法は高品質なビデオでは良い結果を得たが、ソースとターゲットの動きから個々の動き情報を見失った。
我々は、textitIDPresと呼ばれる新しいID保存型HMTネットワークを提案する。
論文 参考訳(メタデータ) (2022-04-14T10:27:19Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z) - Dance In the Wild: Monocular Human Animation with Neural Dynamic
Appearance Synthesis [56.550999933048075]
そこで本研究では,課題に対処し,高品質な映像合成手法を提案する。
動的外見変化を捉えるために発電機重量を変調するために用いられる新しい動きシグネチャを導入する。
提案手法を課題ビデオの集合上で評価し,その手法が質的かつ定量的に最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2021-11-10T20:18:57Z) - Pose-guided Generative Adversarial Net for Novel View Action Synthesis [6.019777076722422]
アクションビデオが与えられた場合、ゴールは目に見えない視点から同じアクションを生成することです。
我々は Pose-guided Action Separable Generative Adversarial Net (PAS-GAN) という新しいフレームワークを提案する。
我々は、ターゲットビューにおけるシーケンシャルな映像特徴を効果的に生成するために、新しいローカル・グローバル空間変換モジュールを用いる。
論文 参考訳(メタデータ) (2021-10-15T10:33:09Z) - Conditional Temporal Variational AutoEncoder for Action Video Prediction [66.63038712306606]
ACT-VAEは、単一の入力画像からアクションクリップのポーズシーケンスを予測する。
プラグアンドプレイのP2Iネットワークに接続すると、ACT-VAEは画像シーケンスを合成できる。
論文 参考訳(メタデータ) (2021-08-12T10:59:23Z) - MulayCap: Multi-layer Human Performance Capture Using A Monocular Video
Camera [68.51530260071914]
単眼ビデオカメラを用いた新しい人体パフォーマンスキャプチャ手法である MulayCap について,事前スキャンを必要とせずに紹介する。
この手法は、幾何再構成とテクスチャレンダリングに「多層」表現を用いる。
MulayCapは、布の編集、再ターゲット、リライト、ARアプリケーションなど、さまざまな重要な編集アプリケーションに適用できる。
論文 参考訳(メタデータ) (2020-04-13T08:13:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。