論文の概要: Can Pose Transfer Models Generate Realistic Human Motion?
- arxiv url: http://arxiv.org/abs/2501.15648v1
- Date: Sun, 26 Jan 2025 19:17:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 21:57:03.786183
- Title: Can Pose Transfer Models Generate Realistic Human Motion?
- Title(参考訳): Pose Transfer Modelsはリアルな人間の動きを生成できるか?
- Authors: Vaclav Knapp, Matyas Bohacek,
- Abstract要約: AnimateAnyone, MagicAnimate, ExAvatarの3種類のポーズ転送手法を評価した。
参加者は、ポーズ変換されたビデオで、その時間の42.92%しか望まれていないアクションを正しく識別することを発見した。
- 参考スコア(独自算出の注目度): 0.7366405857677227
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent pose-transfer methods aim to generate temporally consistent and fully controllable videos of human action where the motion from a reference video is reenacted by a new identity. We evaluate three state-of-the-art pose-transfer methods -- AnimateAnyone, MagicAnimate, and ExAvatar -- by generating videos with actions and identities outside the training distribution and conducting a participant study about the quality of these videos. In a controlled environment of 20 distinct human actions, we find that participants, presented with the pose-transferred videos, correctly identify the desired action only 42.92% of the time. Moreover, the participants find the actions in the generated videos consistent with the reference (source) videos only 36.46% of the time. These results vary by method: participants find the splatting-based ExAvatar more consistent and photorealistic than the diffusion-based AnimateAnyone and MagicAnimate.
- Abstract(参考訳): 近年のポーズ・トランスファー法は、参照ビデオからの動作が新しいアイデンティティによって再現される人間の行動の時間的一貫した、完全に制御可能なビデオを生成することを目的としている。
AnimateAnyone,MagicAnimate,ExAvatarの3つの最先端のポーズ-トランスファー手法を評価する。
20種類の異なる人間の行動が制御された環境では、被験者はポーズ変換された動画を提示し、その時間の42.92%しか望まれていないことを正確に特定する。
さらに、参加者は生成されたビデオのアクションが参照(ソース)ビデオと一致しているのに、その時間の36.46%しか見つからない。
参加者は、拡散に基づくAnimateAnyoneやMagicAnimateよりも、スプレイティングベースのExAvatarの方が一貫性があり、フォトリアリスティックである。
関連論文リスト
- AnimateAnywhere: Rouse the Background in Human Image Animation [50.737139810172465]
AnimateAnywhereは、カメラの軌跡を必要とせずに人間の画像アニメーションの背景を刺激するフレームワークである。
人間のポーズシーケンスから背景動きを学習するための背景動き学習装置(BML)を導入する。
実験によると、AnimateAnywhereは人間のポーズシーケンスから背景の動きを効果的に学習する。
論文 参考訳(メタデータ) (2025-04-28T14:35:01Z) - HumanDreamer: Generating Controllable Human-Motion Videos via Decoupled Generation [28.007696532331934]
本稿では、まずテキストプロンプトから多様なポーズを生成する、疎結合なヒューマンビデオ生成フレームワークを提案する。
我々は、テキストプロンプトから構造化された人間のポーズを生成するためにトレーニングされたMotionDiTを提案する。
さまざまなPose-to-Videoベースラインにわたる実験により,提案手法によって生成されたポーズが,多種多様な高品質な人力動画を生成できることが実証された。
論文 参考訳(メタデータ) (2025-03-31T12:51:45Z) - Learning to Animate Images from A Few Videos to Portray Delicate Human Actions [80.61838364885482]
ビデオ生成モデルは、人間の繊細なアクションを描写するビデオに静的イメージをアニメーション化するのに依然として苦労している。
本稿では,映像をアニメーション化し,微妙な人間の行動を表現するための学習課題について,少数のビデオを用いて検討する。
本研究では、他の動画の動画特徴とフレーム間の対応を利用して、モデルに映像の再構成を強制することで、一般化可能な動きパターンを学習するFLASHを提案する。
論文 参考訳(メタデータ) (2025-03-01T01:09:45Z) - Move-in-2D: 2D-Conditioned Human Motion Generation [54.067588636155115]
そこで我々は,シーンイメージに条件付けされた人間の動作シーケンスを生成する新しい手法であるMove-in-2Dを提案する。
本手法はシーンイメージとテキストプロンプトの両方を入力として受け入れ,シーンに合わせた動作シーケンスを生成する。
論文 参考訳(メタデータ) (2024-12-17T18:58:07Z) - HumanVid: Demystifying Training Data for Camera-controllable Human Image Animation [64.37874983401221]
人間の画像アニメーションに適した,最初の大規模高品質データセットであるHumanVidを紹介する。
実世界のデータについては、インターネットから大量の実世界のビデオをコンパイルします。
合成データとして,10K3Dアバターを収集し,体形,肌のテクスチャ,衣服などの既存の資産を利用した。
論文 参考訳(メタデータ) (2024-07-24T17:15:58Z) - Action2video: Generating Videos of Human 3D Actions [31.665831044217363]
我々は、所定のアクションカテゴリから多様で自然な人間の動きのビデオを生成するという、興味深いが挑戦的な課題に取り組むことを目的としている。
重要な問題は、視覚的な外観で現実的な複数の異なる動き列を合成する能力にある。
Action2motionallyは、所定のアクションカテゴリのもっともらしい3Dポーズシーケンスを生成し、モーション2ビデオによって処理され、レンダリングされ、2Dビデオを形成する。
論文 参考訳(メタデータ) (2021-11-12T20:20:37Z) - Learning Fine-Grained Motion Embedding for Landscape Animation [140.57889994591494]
ファイングラインド・モーション・埋め込みを学習し,高品質でリアルな映像を生成するモデルFGLAを提案する。
多様なタイムラプスビデオのトレーニングと評価を行うため、Diverseのシーンを用いた最大の高解像度タイムラプスビデオデータセットを構築した。
提案手法は,LIPISが19%,FVDが5.6%向上した。
論文 参考訳(メタデータ) (2021-09-06T02:47:11Z) - Layered Neural Rendering for Retiming People in Video [108.85428504808318]
そこで本研究では,通常の自然ビデオで人々をリタイピングする手法を提案する。
異なる動きを時間的に調整したり、特定の動作の速度を変更したり、選択した人々をビデオから完全に「排除」したりできます。
このモデルの主な特徴は、入力ビデオ中の各人物の直接の動きを分離するだけでなく、各人物が生成するシーンの変化と自動的に関連付けることである。
論文 参考訳(メタデータ) (2020-09-16T17:48:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。