論文の概要: Can Action be Imitated? Learn to Reconstruct and Transfer Human Dynamics
from Videos
- arxiv url: http://arxiv.org/abs/2107.11756v1
- Date: Sun, 25 Jul 2021 08:42:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-27 15:54:19.763694
- Title: Can Action be Imitated? Learn to Reconstruct and Transfer Human Dynamics
from Videos
- Title(参考訳): 行動は模倣できるのか?
ビデオからヒューマンダイナミクスの再構築と伝達を学ぶ
- Authors: Yuqian Fu, Yanwei Fu, Yu-Gang Jiang
- Abstract要約: メッシュベースのアクション模倣と呼ばれる新しいタスクを導入する。
このタスクの目標は、任意のターゲットのヒューマンメッシュが、ビデオデモで示された同じアクションを実行できるようにすることである。
高品質で詳細な人体メッシュは、我々のM-VAIを使って生成することができる。
- 参考スコア(独自算出の注目度): 95.47859525676246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given a video demonstration, can we imitate the action contained in this
video? In this paper, we introduce a novel task, dubbed mesh-based action
imitation. The goal of this task is to enable an arbitrary target human mesh to
perform the same action shown on the video demonstration. To achieve this, a
novel Mesh-based Video Action Imitation (M-VAI) method is proposed by us. M-VAI
first learns to reconstruct the meshes from the given source image frames, then
the initial recovered mesh sequence is fed into mesh2mesh, a mesh sequence
smooth module proposed by us, to improve the temporal consistency. Finally, we
imitate the actions by transferring the pose from the constructed human body to
our target identity mesh. High-quality and detailed human body meshes can be
generated by using our M-VAI. Extensive experiments demonstrate the feasibility
of our task and the effectiveness of our proposed method.
- Abstract(参考訳): デモビデオを見ると、このビデオに含まれるアクションを模倣できるだろうか?
本稿では,メッシュ型行動模倣と呼ばれる新しいタスクを提案する。
このタスクの目的は、任意のターゲットのヒューマンメッシュが、ビデオデモで示すのと同じアクションを実行できるようにすることです。
これを実現するために,M-VAI (Mesh-based Video Action Imitation) 法を提案する。
M-VAIはまず、与えられたソースイメージフレームからメッシュを再構築し、最初に回復したメッシュシーケンスを、私たちによって提案されたメッシュシーケンススムーズなモジュールである Mesh2meshに入力し、時間的一貫性を改善する。
最後に、構築された人体から対象のアイデンティティメッシュにポーズを移すことで、アクションを模倣します。
高品質で詳細な人体メッシュは、我々のM-VAIを使って生成することができる。
広範な実験により,提案手法の有効性と課題の有効性が実証された。
関連論文リスト
- TALK-Act: Enhance Textural-Awareness for 2D Speaking Avatar Reenactment with Diffusion Model [100.35665852159785]
本研究では,SpeaKing Avatar Reenactment (TALK-Act) フレームワークのためのMotion-Enhanced Textural-Aware ModeLingを提案する。
我々のキーとなる考え方は、拡散モデルにおける明示的な動き誘導によるテクスチャ認知を高めることである。
本モデルは,30秒の個人データのみを用いて,高忠実度2次元アバター再現を実現する。
論文 参考訳(メタデータ) (2024-10-14T16:38:10Z) - CustomCrafter: Customized Video Generation with Preserving Motion and Concept Composition Abilities [56.5742116979914]
CustomCrafterは、追加のビデオやリカバリのための微調整なしで、モデルの動き生成と概念的な組み合わせ能力を保持する。
動作生成では,VDMが早期に映像の動きを回復する傾向が見られた。
復調の後期では、特定対象の外観詳細を修復するために、このモジュールを復元する。
論文 参考訳(メタデータ) (2024-08-23T17:26:06Z) - Learn the Force We Can: Enabling Sparse Motion Control in Multi-Object
Video Generation [26.292052071093945]
単一のフレームとスパース動作入力からビデオを生成する教師なしの手法を提案する。
我々の訓練されたモデルは、目に見えない現実的なオブジェクト間相互作用を生成できる。
ヨダは、制御性と映像品質の両面において、先行するアートビデオ生成の状況と同等かそれ以上であることを示す。
論文 参考訳(メタデータ) (2023-06-06T19:50:02Z) - Masked Motion Encoding for Self-Supervised Video Representation Learning [84.24773072241945]
Masked Motion MMEは、外観情報と動作情報の両方を再構成し、時間的手がかりを探索する新しい事前学習パラダイムである。
物体の位置変化や形状変化を追跡することで、人間が行動を認識することができるという事実を動機として、マスク領域におけるこれらの2種類の変化を表す運動軌跡を再構築することを提案する。
我々のMMEパラダイムで事前訓練されたモデルでは、長期的かつきめ細かな動きの詳細を予測できる。
論文 参考訳(メタデータ) (2022-10-12T11:19:55Z) - An Identity-Preserved Framework for Human Motion Transfer [3.6286856791379463]
HMT(Human Motion Transfer)は、被写体の動きを模倣することにより、被写体のためのビデオクリップを生成することを目的とする。
従来の手法は高品質なビデオでは良い結果を得たが、ソースとターゲットの動きから個々の動き情報を見失った。
我々は、textitIDPresと呼ばれる新しいID保存型HMTネットワークを提案する。
論文 参考訳(メタデータ) (2022-04-14T10:27:19Z) - Pose-guided Generative Adversarial Net for Novel View Action Synthesis [6.019777076722422]
アクションビデオが与えられた場合、ゴールは目に見えない視点から同じアクションを生成することです。
我々は Pose-guided Action Separable Generative Adversarial Net (PAS-GAN) という新しいフレームワークを提案する。
我々は、ターゲットビューにおけるシーケンシャルな映像特徴を効果的に生成するために、新しいローカル・グローバル空間変換モジュールを用いる。
論文 参考訳(メタデータ) (2021-10-15T10:33:09Z) - Conditional Temporal Variational AutoEncoder for Action Video Prediction [66.63038712306606]
ACT-VAEは、単一の入力画像からアクションクリップのポーズシーケンスを予測する。
プラグアンドプレイのP2Iネットワークに接続すると、ACT-VAEは画像シーケンスを合成できる。
論文 参考訳(メタデータ) (2021-08-12T10:59:23Z) - MulayCap: Multi-layer Human Performance Capture Using A Monocular Video
Camera [68.51530260071914]
単眼ビデオカメラを用いた新しい人体パフォーマンスキャプチャ手法である MulayCap について,事前スキャンを必要とせずに紹介する。
この手法は、幾何再構成とテクスチャレンダリングに「多層」表現を用いる。
MulayCapは、布の編集、再ターゲット、リライト、ARアプリケーションなど、さまざまな重要な編集アプリケーションに適用できる。
論文 参考訳(メタデータ) (2020-04-13T08:13:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。