論文の概要: Follow Your Pose: Pose-Guided Text-to-Video Generation using Pose-Free
Videos
- arxiv url: http://arxiv.org/abs/2304.01186v1
- Date: Mon, 3 Apr 2023 17:55:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 14:17:00.113121
- Title: Follow Your Pose: Pose-Guided Text-to-Video Generation using Pose-Free
Videos
- Title(参考訳): Poseをフォローする: Pose-Guided Text-to-Video Generation by Pose-free Videos
- Authors: Yue Ma, Yingqing He, Xiaodong Cun, Xintao Wang, Ying Shan, Xiu Li,
Qifeng Chen
- Abstract要約: ポーズ制御可能なキャラクタビデオを生成するための新しい2段階トレーニング手法を開発した。
第1段階では、制御可能なテキスト・ツー・イメージ生成にキーポイント・イメージペアのみを使用する。
第2段階では、ポーズフリーのビデオデータセットを用いて、ネットワークの動きを微調整する。
- 参考スコア(独自算出の注目度): 67.27995795280414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating text-editable and pose-controllable character videos have an
imperious demand in creating various digital human. Nevertheless, this task has
been restricted by the absence of a comprehensive dataset featuring paired
video-pose captions and the generative prior models for videos. In this work,
we design a novel two-stage training scheme that can utilize easily obtained
datasets (i.e.,image pose pair and pose-free video) and the pre-trained
text-to-image (T2I) model to obtain the pose-controllable character videos.
Specifically, in the first stage, only the keypoint-image pairs are used only
for a controllable text-to-image generation. We learn a zero-initialized
convolu- tional encoder to encode the pose information. In the second stage, we
finetune the motion of the above network via a pose-free video dataset by
adding the learnable temporal self-attention and reformed cross-frame
self-attention blocks. Powered by our new designs, our method successfully
generates continuously pose-controllable character videos while keeps the
editing and concept composition ability of the pre-trained T2I model. The code
and models will be made publicly available.
- Abstract(参考訳): テキスト編集可能でポーズ制御可能なキャラクタビデオの生成は、さまざまなデジタル人間を作成する上で不必要に要求される。
それでも、このタスクは、ペア化されたビデオの字幕と、ビデオの生成前のモデルを含む包括的なデータセットが存在しないことで制限されている。
本研究では,手軽に得られるデータセット(画像ポーズペアとポーズフリービデオ)と事前学習されたテキスト・ツー・イメージモデル(t2i)を活用し,ポーズ制御可能なキャラクタビデオを得ることのできる,新たな2段階学習方式を提案する。
具体的には、第1段階では、キーポイントと画像のペアのみが制御可能なテキストと画像の生成にのみ使用される。
我々はポーズ情報をエンコードするゼロイニシャライズ畳み込みエンコーダを学習する。
第2段階では,学習可能な時間的自己着脱ブロックと再構成されたクロスフレーム自己着脱ブロックを付加することにより,ポーズフリービデオデータセットを介して,上記ネットワークの動作を微調整する。
本手法は,新たな設計により,事前学習したt2iモデルの編集と概念合成能力を維持しつつ,連続的なポーズ制御可能なキャラクタビデオの生成に成功している。
コードとモデルは公開される予定だ。
関連論文リスト
- PoseCrafter: One-Shot Personalized Video Synthesis Following Flexible Pose Control [22.253448372833617]
PoseCrafterは、フレキシブルポーズのコントロールに続くパーソナライズされたビデオ生成のためのワンショット方式である。
安定拡散と制御ネットに基づいて、我々は、高品質なビデオを生成するための推論プロセスを慎重に設計する。
論文 参考訳(メタデータ) (2024-05-23T13:53:50Z) - Investigating the Effectiveness of Cross-Attention to Unlock Zero-Shot Editing of Text-to-Video Diffusion Models [52.28245595257831]
クロスアテンションガイダンスは、ビデオを編集する上で有望なアプローチだ。
現行のT2Vモデルの限界にもかかわらず、動画編集にはクロスアテンションガイダンスが有望なアプローチであることを示す。
論文 参考訳(メタデータ) (2024-04-08T13:40:01Z) - AnimateZero: Video Diffusion Models are Zero-Shot Image Animators [63.938509879469024]
我々はAnimateZeroを提案し、事前訓練されたテキスト・ビデオ拡散モデル、すなわちAnimateDiffを提案する。
外観制御のために,テキスト・ツー・イメージ(T2I)生成から中間潜伏子とその特徴を借りる。
時間的制御では、元のT2Vモデルのグローバルな時間的注意を位置補正窓の注意に置き換える。
論文 参考訳(メタデータ) (2023-12-06T13:39:35Z) - LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation [44.220329202024494]
我々は,1つのGPU上で816本の動画でテキストから画像への拡散モデルを学習する,数ショットベースのチューニングフレームワーク LAMP を提案する。
具体的には,コンテンツ生成のための既製のテキスト・ツー・イメージモデルを用いて,第1フレーム条件のパイプラインを設計する。
時間次元の特徴を捉えるため、T2Iモデルの事前訓練された2次元畳み込み層を、新しい時間空間運動学習層に拡張する。
論文 参考訳(メタデータ) (2023-10-16T19:03:19Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z) - Tune-A-Video: One-Shot Tuning of Image Diffusion Models for
Text-to-Video Generation [31.882356164068753]
テキスト・トゥ・イメージ(T2I)生成の成功を再現するため、最近のテキスト・トゥ・ビデオ(T2V)生成では、T2V生成のためのデータセットに大量のデータセットが使用されている。
そこで本研究では,Tune-A-Videoが様々なアプリケーション上で時間的コヒーレントなビデオを生成することを提案する。
論文 参考訳(メタデータ) (2022-12-22T09:43:36Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z) - Self-Supervised Equivariant Scene Synthesis from Video [84.15595573718925]
本稿では,映像からシーン表現を学習するフレームワークを提案する。
トレーニング後、画像エンコーディングをリアルタイムで操作して、非表示のコンポーネントの組み合わせを生成することができる。
背景を持つMNISTの移動、2Dビデオゲームのスプライト、ファッションモデリングの3つのデータセットで結果を示す。
論文 参考訳(メタデータ) (2021-02-01T14:17:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。