論文の概要: Text2AC-Zero: Consistent Synthesis of Animated Characters using 2D
Diffusion
- arxiv url: http://arxiv.org/abs/2312.07133v1
- Date: Tue, 12 Dec 2023 10:07:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 16:38:06.018187
- Title: Text2AC-Zero: Consistent Synthesis of Animated Characters using 2D
Diffusion
- Title(参考訳): Text2AC-Zero:2次元拡散を用いたアニメーション文字の連続合成
- Authors: Abdelrahman Eldesokey, Peter Wonka
- Abstract要約: 本稿では,事前学習されたテキスト・トゥ・イメージ(T2I)拡散モデルに基づく一貫したテキスト・トゥ・アニメーション・文字合成のためのゼロショット手法を提案する。
我々は、既存のテキストベースの動き拡散モデルを利用して、T2Iモデルを誘導する多様な動きを生成する。
提案手法は,時間的に一貫した動画を多種多様な動きやスタイルで生成し,画素単位の一貫性とユーザの好みで既存のゼロショットT2Vアプローチより優れている。
- 参考スコア(独自算出の注目度): 52.196540278796476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a zero-shot approach for consistent Text-to-Animated-Characters
synthesis based on pre-trained Text-to-Image (T2I) diffusion models. Existing
Text-to-Video (T2V) methods are expensive to train and require large-scale
video datasets to produce diverse characters and motions. At the same time,
their zero-shot alternatives fail to produce temporally consistent videos. We
strive to bridge this gap, and we introduce a zero-shot approach that produces
temporally consistent videos of animated characters and requires no training or
fine-tuning. We leverage existing text-based motion diffusion models to
generate diverse motions that we utilize to guide a T2I model. To achieve
temporal consistency, we introduce the Spatial Latent Alignment module that
exploits cross-frame dense correspondences that we compute to align the latents
of the video frames. Furthermore, we propose Pixel-Wise Guidance to steer the
diffusion process in a direction that minimizes visual discrepancies. Our
proposed approach generates temporally consistent videos with diverse motions
and styles, outperforming existing zero-shot T2V approaches in terms of
pixel-wise consistency and user preference.
- Abstract(参考訳): 本稿では,事前学習されたテキスト・トゥ・イメージ(T2I)拡散モデルに基づく一貫したテキスト・トゥ・アニメーション・文字合成のためのゼロショット手法を提案する。
既存のtext-to-video(t2v)メソッドはトレーニングに費用がかかり、多様な文字や動きを生成するために大規模なビデオデータセットを必要とする。
同時に、ゼロショットの代替品は時間的に一貫性のあるビデオを作り出すことができない。
我々は,このギャップを埋めるために,アニメーションキャラクタの時間的一貫性のある映像を作成し,トレーニングや微調整を必要としないゼロショット方式を提案する。
既存のテキストに基づく動き拡散モデルを用いて,t2iモデルの誘導に利用する多様な動きを生成する。
時間的整合性を達成するために,ビデオフレームの遅延を整列するために計算するクロスフレーム密度対応を利用した空間潜在アライメントモジュールを導入する。
さらに,Pixel-Wise Guidanceを提案し,視差を最小限に抑える方向に拡散過程を操る。
提案手法は,時間的に一貫した動画を多種多様な動きやスタイルで生成し,画素単位の一貫性とユーザの好みで既存のゼロショットT2Vアプローチより優れている。
関連論文リスト
- Customize-A-Video: One-Shot Motion Customization of Text-to-Video
Diffusion Models [50.65904921917907]
本研究では,単一参照ビデオからの動作をモデル化し,空間的・時間的変化のある新しい主題やシーンに適応するCustomize-A-Videoを提案する。
提案手法は、カスタムビデオ生成や編集、映像の外観のカスタマイズ、複数動作の組み合わせなど、様々な下流タスクに容易に拡張できる。
論文 参考訳(メタデータ) (2024-02-22T18:38:48Z) - AnimateZero: Video Diffusion Models are Zero-Shot Image Animators [63.938509879469024]
我々はAnimateZeroを提案し、事前訓練されたテキスト・ビデオ拡散モデル、すなわちAnimateDiffを提案する。
外観制御のために,テキスト・ツー・イメージ(T2I)生成から中間潜伏子とその特徴を借りる。
時間的制御では、元のT2Vモデルのグローバルな時間的注意を位置補正窓の注意に置き換える。
論文 参考訳(メタデータ) (2023-12-06T13:39:35Z) - Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for
Character Animation [29.35175159679592]
拡散モデルは、その堅牢な生成能力のために、視覚世代研究の主流となっている。
本稿では,キャラクターアニメーションに適した新しいフレームワークを提案する。
トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2023-11-28T12:27:15Z) - MoVideo: Motion-Aware Video Generation with Diffusion Models [102.81825637792572]
本稿では,映像深度と光フローの2つの側面から動きを考慮に入れたモーションアウェア・ジェネレーション(MoVideo)フレームワークを提案する。
MoVideoは、テキスト・トゥ・ビデオと画像・トゥ・ビデオ生成の両方で最先端の結果を達成し、期待できる即時一貫性、フレームの整合性、視覚的品質を示す。
論文 参考訳(メタデータ) (2023-11-19T13:36:03Z) - LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation [44.220329202024494]
我々は,1つのGPU上で816本の動画でテキストから画像への拡散モデルを学習する,数ショットベースのチューニングフレームワーク LAMP を提案する。
具体的には,コンテンツ生成のための既製のテキスト・ツー・イメージモデルを用いて,第1フレーム条件のパイプラインを設計する。
時間次元の特徴を捉えるため、T2Iモデルの事前訓練された2次元畳み込み層を、新しい時間空間運動学習層に拡張する。
論文 参考訳(メタデータ) (2023-10-16T19:03:19Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。