論文の概要: PoseCrafter: One-Shot Personalized Video Synthesis Following Flexible Poses
- arxiv url: http://arxiv.org/abs/2405.14582v1
- Date: Thu, 23 May 2024 13:53:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 14:45:33.916977
- Title: PoseCrafter: One-Shot Personalized Video Synthesis Following Flexible Poses
- Title(参考訳): PoseCrafter: フレキシブルなゲームに続き、ワンショットでパーソナライズされたビデオ合成
- Authors: Yong Zhong, Min Zhao, Zebin You, Xiaofeng Yu, Changwang Zhang, Chongxuan Li,
- Abstract要約: PoseCrafterは、フレキシブルポーズのコントロールに続くパーソナライズされたビデオ生成のためのワンショット方式である。
安定拡散と制御ネットに基づいて、我々は、高品質なビデオを生成するための推論プロセスを慎重に設計する。
- 参考スコア(独自算出の注目度): 22.253448372833617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce PoseCrafter, a one-shot method for personalized video generation following the control of flexible poses. Built upon Stable Diffusion and ControlNet, we carefully design an inference process to produce high-quality videos without the corresponding ground-truth frames. First, we select an appropriate reference frame from the training video and invert it to initialize all latent variables for generation. Then, we insert the corresponding training pose into the target pose sequences to enhance faithfulness through a trained temporal attention module. Furthermore, to alleviate the face and hand degradation resulting from discrepancies between poses of training videos and inference poses, we implement simple latent editing through an affine transformation matrix involving facial and hand landmarks. Extensive experiments on several datasets demonstrate that PoseCrafter achieves superior results to baselines pre-trained on a vast collection of videos under 8 commonly used metrics. Besides, PoseCrafter can follow poses from different individuals or artificial edits and simultaneously retain the human identity in an open-domain training video.
- Abstract(参考訳): 本稿では、フレキシブルポーズの制御に追随したパーソナライズされたビデオ生成のためのワンショット手法であるPoseCrafterを紹介する。
安定拡散と制御ネットを基盤として,高画質なビデオを生成するための推論プロセスを慎重に設計する。
まず、トレーニングビデオから適切な参照フレームを選択し、それを逆転して潜在変数を初期化して生成する。
そして、トレーニングされた時間的注意モジュールを通して忠実度を高めるために、対応するトレーニングポーズをターゲットポーズシーケンスに挿入する。
さらに、トレーニングビデオのポーズと推論ポーズの相違による顔と手の劣化を軽減するため、顔と手のランドマークを含むアフィン変換マトリクスを用いて簡易な潜時編集を行う。
複数のデータセットに対する大規模な実験により、PoseCrafterは8つの一般的なメトリクスの下で大量のビデオのコレクションに基づいて事前トレーニングされたベースラインに対して、優れた結果が得られることが示された。
さらに、PoseCrafterは、異なる個人や人工的な編集のポーズをフォローでき、オープンドメインのトレーニングビデオで人間のアイデンティティを同時に保持できる。
関連論文リスト
- WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。
識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。
SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。
VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-28T13:18:32Z) - Edit-Your-Motion: Space-Time Diffusion Decoupling Learning for Video Motion Editing [46.56615725175025]
そこで本研究では,テキストとビデオのペアを1つだけ必要とするような編集-Your-Motionというワンショットビデオ編集手法を提案する。
具体的には、時空間拡散モデルにおける運動時間的特徴を分離するために、詳細なPromptGuided Learning Strategyを設計する。
Edit-Your-Motionを使えば、ユーザーはソースビデオの中のオブジェクトの動きを編集して、よりエキサイティングで多様なビデオを生成することができる。
論文 参考訳(メタデータ) (2024-05-07T17:06:59Z) - Follow Your Pose: Pose-Guided Text-to-Video Generation using Pose-Free
Videos [107.65147103102662]
本研究では、ポーズ制御可能なキャラクタビデオを得るために、データセット(ポーズペアとポーズフリービデオ)と事前訓練されたテキスト・ツー・イメージ(T2I)モデルを利用する。
具体的には、第1段階では、キーポイントと画像のペアのみが制御可能なテキストと画像の生成にのみ使用される。
第2段階では、学習可能な時間的自己アテンションと修正されたクロスフレーム自己アテンションブロックを追加することで、ポーズのないビデオデータセットを介して、上記のネットワークの動きを微調整する。
論文 参考訳(メタデータ) (2023-04-03T17:55:14Z) - FateZero: Fusing Attentions for Zero-shot Text-based Video Editing [104.27329655124299]
本研究では,FateZeroを提案する。FateZeroは,実世界のビデオに対して,プロンプトごとのトレーニングや使用専用のマスクを使わずに,ゼロショットのテキストベースの編集手法である。
本手法は、ゼロショットテキスト駆動型ビデオスタイルと、訓練されたテキスト・ツー・イメージモデルからローカル属性を編集する機能を示す最初の方法である。
論文 参考訳(メタデータ) (2023-03-16T17:51:13Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z) - Vid2Actor: Free-viewpoint Animatable Person Synthesis from Video in the
Wild [22.881898195409885]
対象者の「夢中」映像が与えられた場合、映像中の人物のアニマタブルなモデルを再構築する。
出力モデルは、明示的な3dメッシュ再構成なしに、学習されたコントロールを介して、任意のカメラビューに任意のボディポーズでレンダリングすることができる。
論文 参考訳(メタデータ) (2020-12-23T18:50:42Z) - Human Motion Transfer from Poses in the Wild [61.6016458288803]
人間の動き伝達の問題に対処し、基準映像からの動きを模倣する対象人物のための新しい動き映像を合成する。
推定ポーズを用いて2つのドメインをブリッジするビデオ間翻訳タスクである。
トレーニング中に見つからない線内ポーズシーケンスであっても、時間的に一貫性のある高品質なビデオを生成するための新しいポーズ・ツー・ビデオ翻訳フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-07T05:59:53Z) - Realistic Face Reenactment via Self-Supervised Disentangling of Identity
and Pose [23.211318473026243]
本研究では,大量の未収録映像を自然に再現する自己教師型ハイブリッドモデル(DAE-GAN)を提案する。
提案手法は,2つのデフォーミングオートエンコーダと条件生成の最新の進歩を組み合わせたものである。
実験の結果,再現された画像の良好な品質と,同一性間での顔の動きの伝達の柔軟性が示された。
論文 参考訳(メタデータ) (2020-03-29T06:45:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。