Fugu-MT 論文翻訳(概要): Can Action be Imitated? Learn to Reconstruct and Transfer Human Dynamics from Videos

論文の概要: Can Action be Imitated? Learn to Reconstruct and Transfer Human Dynamics from Videos

arxiv url: http://arxiv.org/abs/2107.11756v1
Date: Sun, 25 Jul 2021 08:42:56 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-27 15:54:19.763694
Title: Can Action be Imitated? Learn to Reconstruct and Transfer Human Dynamics from Videos
Title（参考訳）: 行動は模倣できるのか? ビデオからヒューマンダイナミクスの再構築と伝達を学ぶ
Authors: Yuqian Fu, Yanwei Fu, Yu-Gang Jiang
Abstract要約: メッシュベースのアクション模倣と呼ばれる新しいタスクを導入する。このタスクの目標は、任意のターゲットのヒューマンメッシュが、ビデオデモで示された同じアクションを実行できるようにすることである。高品質で詳細な人体メッシュは、我々のM-VAIを使って生成することができる。
参考スコア（独自算出の注目度）: 95.47859525676246
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Given a video demonstration, can we imitate the action contained in this video? In this paper, we introduce a novel task, dubbed mesh-based action imitation. The goal of this task is to enable an arbitrary target human mesh to perform the same action shown on the video demonstration. To achieve this, a novel Mesh-based Video Action Imitation (M-VAI) method is proposed by us. M-VAI first learns to reconstruct the meshes from the given source image frames, then the initial recovered mesh sequence is fed into mesh2mesh, a mesh sequence smooth module proposed by us, to improve the temporal consistency. Finally, we imitate the actions by transferring the pose from the constructed human body to our target identity mesh. High-quality and detailed human body meshes can be generated by using our M-VAI. Extensive experiments demonstrate the feasibility of our task and the effectiveness of our proposed method.
Abstract（参考訳）: デモビデオを見ると、このビデオに含まれるアクションを模倣できるだろうか? 本稿では,メッシュ型行動模倣と呼ばれる新しいタスクを提案する。このタスクの目的は、任意のターゲットのヒューマンメッシュが、ビデオデモで示すのと同じアクションを実行できるようにすることです。これを実現するために,M-VAI (Mesh-based Video Action Imitation) 法を提案する。 M-VAIはまず、与えられたソースイメージフレームからメッシュを再構築し、最初に回復したメッシュシーケンスを、私たちによって提案されたメッシュシーケンススムーズなモジュールである Mesh2meshに入力し、時間的一貫性を改善する。最後に、構築された人体から対象のアイデンティティメッシュにポーズを移すことで、アクションを模倣します。高品質で詳細な人体メッシュは、我々のM-VAIを使って生成することができる。広範な実験により,提案手法の有効性と課題の有効性が実証された。

関連論文リスト

UAV4D: Dynamic Neural Rendering of Human-Centric UAV Imagery using Gaussian Splatting [54.883935964137706]
UAV4Dは,UAVが捉えたダイナミックな現実世界のシーンに対して,フォトリアリスティックなレンダリングを可能にするフレームワークである。我々は3次元基礎モデルと人間のメッシュ再構築モデルを組み合わせて、シーン背景と人間の両方を再構築する。以上の結果から,新しい視点合成法に対するアプローチの利点が示され,1.5dBPSNRの改善と視覚的シャープネスの向上が達成された。
論文参考訳（メタデータ） (2025-06-05T13:21:09Z)
TALK-Act: Enhance Textural-Awareness for 2D Speaking Avatar Reenactment with Diffusion Model [100.35665852159785]
本研究では,SpeaKing Avatar Reenactment (TALK-Act) フレームワークのためのMotion-Enhanced Textural-Aware ModeLingを提案する。我々のキーとなる考え方は、拡散モデルにおける明示的な動き誘導によるテクスチャ認知を高めることである。本モデルは,30秒の個人データのみを用いて,高忠実度2次元アバター再現を実現する。
論文参考訳（メタデータ） (2024-10-14T16:38:10Z)
CustomCrafter: Customized Video Generation with Preserving Motion and Concept Composition Abilities [56.5742116979914]
CustomCrafterは、追加のビデオやリカバリのための微調整なしで、モデルの動き生成と概念的な組み合わせ能力を保持する。動作生成においては,VDMは早期に映像の動きを回復する傾向にあり,後期では被写体の詳細の回復に焦点をあてる傾向が見られた。
論文参考訳（メタデータ） (2024-08-23T17:26:06Z)
DreaMoving: A Human Video Generation Framework based on Diffusion Models [30.613881402258507]
DreaMovingは拡散ベースの制御可能なビデオ生成フレームワークである。姿勢シーケンスによって駆動される任意の場所で、ターゲットのアイデンティティが動いたり踊ったりするビデオを生成することができる。
論文参考訳（メタデータ） (2023-12-08T15:37:17Z)
Learn the Force We Can: Enabling Sparse Motion Control in Multi-Object Video Generation [26.292052071093945]
単一のフレームとスパース動作入力からビデオを生成する教師なしの手法を提案する。我々の訓練されたモデルは、目に見えない現実的なオブジェクト間相互作用を生成できる。ヨダは、制御性と映像品質の両面において、先行するアートビデオ生成の状況と同等かそれ以上であることを示す。
論文参考訳（メタデータ） (2023-06-06T19:50:02Z)
Masked Motion Encoding for Self-Supervised Video Representation Learning [84.24773072241945]
Masked Motion MMEは、外観情報と動作情報の両方を再構成し、時間的手がかりを探索する新しい事前学習パラダイムである。物体の位置変化や形状変化を追跡することで、人間が行動を認識することができるという事実を動機として、マスク領域におけるこれらの2種類の変化を表す運動軌跡を再構築することを提案する。我々のMMEパラダイムで事前訓練されたモデルでは、長期的かつきめ細かな動きの詳細を予測できる。
論文参考訳（メタデータ） (2022-10-12T11:19:55Z)
An Identity-Preserved Framework for Human Motion Transfer [3.6286856791379463]
HMT(Human Motion Transfer)は、被写体の動きを模倣することにより、被写体のためのビデオクリップを生成することを目的とする。従来の手法は高品質なビデオでは良い結果を得たが、ソースとターゲットの動きから個々の動き情報を見失った。我々は、textitIDPresと呼ばれる新しいID保存型HMTネットワークを提案する。
論文参考訳（メタデータ） (2022-04-14T10:27:19Z)
Pose-guided Generative Adversarial Net for Novel View Action Synthesis [6.019777076722422]
アクションビデオが与えられた場合、ゴールは目に見えない視点から同じアクションを生成することです。我々は Pose-guided Action Separable Generative Adversarial Net (PAS-GAN) という新しいフレームワークを提案する。我々は、ターゲットビューにおけるシーケンシャルな映像特徴を効果的に生成するために、新しいローカル・グローバル空間変換モジュールを用いる。
論文参考訳（メタデータ） (2021-10-15T10:33:09Z)
Conditional Temporal Variational AutoEncoder for Action Video Prediction [66.63038712306606]
ACT-VAEは、単一の入力画像からアクションクリップのポーズシーケンスを予測する。プラグアンドプレイのP2Iネットワークに接続すると、ACT-VAEは画像シーケンスを合成できる。
論文参考訳（メタデータ） (2021-08-12T10:59:23Z)
MulayCap: Multi-layer Human Performance Capture Using A Monocular Video Camera [68.51530260071914]
単眼ビデオカメラを用いた新しい人体パフォーマンスキャプチャ手法である MulayCap について,事前スキャンを必要とせずに紹介する。この手法は、幾何再構成とテクスチャレンダリングに「多層」表現を用いる。 MulayCapは、布の編集、再ターゲット、リライト、ARアプリケーションなど、さまざまな重要な編集アプリケーションに適用できる。
論文参考訳（メタデータ） (2020-04-13T08:13:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。