論文の概要: Can Pose Transfer Models Generate Realistic Human Motion?
- arxiv url: http://arxiv.org/abs/2501.15648v1
- Date: Sun, 26 Jan 2025 19:17:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 14:00:01.993094
- Title: Can Pose Transfer Models Generate Realistic Human Motion?
- Title(参考訳): Pose Transfer Modelsはリアルな人間の動きを生成できるか?
- Authors: Vaclav Knapp, Matyas Bohacek,
- Abstract要約: AnimateAnyone, MagicAnimate, ExAvatarの3種類のポーズ転送手法を評価した。
参加者は、ポーズ変換されたビデオで、その時間の42.92%しか望まれていないアクションを正しく識別することを発見した。
- 参考スコア(独自算出の注目度): 0.7366405857677227
- License:
- Abstract: Recent pose-transfer methods aim to generate temporally consistent and fully controllable videos of human action where the motion from a reference video is reenacted by a new identity. We evaluate three state-of-the-art pose-transfer methods -- AnimateAnyone, MagicAnimate, and ExAvatar -- by generating videos with actions and identities outside the training distribution and conducting a participant study about the quality of these videos. In a controlled environment of 20 distinct human actions, we find that participants, presented with the pose-transferred videos, correctly identify the desired action only 42.92% of the time. Moreover, the participants find the actions in the generated videos consistent with the reference (source) videos only 36.46% of the time. These results vary by method: participants find the splatting-based ExAvatar more consistent and photorealistic than the diffusion-based AnimateAnyone and MagicAnimate.
- Abstract(参考訳): 近年のポーズ・トランスファー法は、参照ビデオからの動作が新しいアイデンティティによって再現される人間の行動の時間的一貫した、完全に制御可能なビデオを生成することを目的としている。
AnimateAnyone,MagicAnimate,ExAvatarの3つの最先端のポーズ-トランスファー手法を評価する。
20種類の異なる人間の行動が制御された環境では、被験者はポーズ変換された動画を提示し、その時間の42.92%しか望まれていないことを正確に特定する。
さらに、参加者は生成されたビデオのアクションが参照(ソース)ビデオと一致しているのに、その時間の36.46%しか見つからない。
参加者は、拡散に基づくAnimateAnyoneやMagicAnimateよりも、スプレイティングベースのExAvatarの方が一貫性があり、フォトリアリスティックである。
関連論文リスト
- HumanVid: Demystifying Training Data for Camera-controllable Human Image Animation [64.37874983401221]
人間の画像アニメーションに適した,最初の大規模高品質データセットであるHumanVidを紹介する。
実世界のデータについては、インターネットから大量の実世界のビデオをコンパイルします。
合成データとして,10K3Dアバターを収集し,体形,肌のテクスチャ,衣服などの既存の資産を利用した。
論文 参考訳(メタデータ) (2024-07-24T17:15:58Z) - Video-Driven Animation of Neural Head Avatars [3.5229503563299915]
高品質なニューラル3Dヘッドモデルの映像駆動型アニメーションに対する新しいアプローチを提案する。
本研究では、個人に依存しない表現特徴をパーソナライズされたアニメーションパラメータに翻訳できるLSTMベースのアニメーションネットワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T10:13:48Z) - AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models
without Specific Tuning [92.33690050667475]
AnimateDiffは、モデル固有のチューニングを必要とせずに、パーソナライズされたT2Iモデルをアニメーションするためのフレームワークである。
我々は,AnimateDiffの軽量微調整技術であるMotionLoRAを提案する。
その結果,これらのモデルが視覚的品質と動きの多様性を保ちながら,時間的にスムーズなアニメーションクリップを生成するのに有効であることが示唆された。
論文 参考訳(メタデータ) (2023-07-10T17:34:16Z) - Action2video: Generating Videos of Human 3D Actions [31.665831044217363]
我々は、所定のアクションカテゴリから多様で自然な人間の動きのビデオを生成するという、興味深いが挑戦的な課題に取り組むことを目的としている。
重要な問題は、視覚的な外観で現実的な複数の異なる動き列を合成する能力にある。
Action2motionallyは、所定のアクションカテゴリのもっともらしい3Dポーズシーケンスを生成し、モーション2ビデオによって処理され、レンダリングされ、2Dビデオを形成する。
論文 参考訳(メタデータ) (2021-11-12T20:20:37Z) - Learning Fine-Grained Motion Embedding for Landscape Animation [140.57889994591494]
ファイングラインド・モーション・埋め込みを学習し,高品質でリアルな映像を生成するモデルFGLAを提案する。
多様なタイムラプスビデオのトレーニングと評価を行うため、Diverseのシーンを用いた最大の高解像度タイムラプスビデオデータセットを構築した。
提案手法は,LIPISが19%,FVDが5.6%向上した。
論文 参考訳(メタデータ) (2021-09-06T02:47:11Z) - Single-Shot Freestyle Dance Reenactment [89.91619150027265]
ソースダンサーと対象者との間の動き伝達のタスクは、ポーズ伝達問題の特別なケースである。
本稿では,任意の映像シーケンスで1つの画像を再識別できる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-12-02T12:57:43Z) - Layered Neural Rendering for Retiming People in Video [108.85428504808318]
そこで本研究では,通常の自然ビデオで人々をリタイピングする手法を提案する。
異なる動きを時間的に調整したり、特定の動作の速度を変更したり、選択した人々をビデオから完全に「排除」したりできます。
このモデルの主な特徴は、入力ビデオ中の各人物の直接の動きを分離するだけでなく、各人物が生成するシーンの変化と自動的に関連付けることである。
論文 参考訳(メタデータ) (2020-09-16T17:48:26Z) - First Order Motion Model for Image Animation [90.712718329677]
画像アニメーションは、駆動ビデオの動きに応じて、ソース画像内のオブジェクトがアニメーションされるように、ビデオシーケンスを生成する。
我々のフレームワークは、アニメーションする特定のオブジェクトに関するアノテーションや事前情報を使わずに、この問題に対処します。
論文 参考訳(メタデータ) (2020-02-29T07:08:56Z) - Do As I Do: Transferring Human Motion and Appearance between Monocular
Videos with Spatial and Temporal Constraints [8.784162652042959]
画像からのマーカレス人間の動き推定と形状モデリングは、この課題を先進国にもたらす。
本稿では,モノクラービデオから外見や人間の動きを伝達するための統一的な定式化を提案する。
本手法は,人間の動作と外観の両方を,最先端の手法で転送することができる。
論文 参考訳(メタデータ) (2020-01-08T16:39:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。