論文の概要: Text2AC-Zero: Consistent Synthesis of Animated Characters using 2D
Diffusion
- arxiv url: http://arxiv.org/abs/2312.07133v1
- Date: Tue, 12 Dec 2023 10:07:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 16:38:06.018187
- Title: Text2AC-Zero: Consistent Synthesis of Animated Characters using 2D
Diffusion
- Title(参考訳): Text2AC-Zero:2次元拡散を用いたアニメーション文字の連続合成
- Authors: Abdelrahman Eldesokey, Peter Wonka
- Abstract要約: 本稿では,事前学習されたテキスト・トゥ・イメージ(T2I)拡散モデルに基づく一貫したテキスト・トゥ・アニメーション・文字合成のためのゼロショット手法を提案する。
我々は、既存のテキストベースの動き拡散モデルを利用して、T2Iモデルを誘導する多様な動きを生成する。
提案手法は,時間的に一貫した動画を多種多様な動きやスタイルで生成し,画素単位の一貫性とユーザの好みで既存のゼロショットT2Vアプローチより優れている。
- 参考スコア(独自算出の注目度): 52.196540278796476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a zero-shot approach for consistent Text-to-Animated-Characters
synthesis based on pre-trained Text-to-Image (T2I) diffusion models. Existing
Text-to-Video (T2V) methods are expensive to train and require large-scale
video datasets to produce diverse characters and motions. At the same time,
their zero-shot alternatives fail to produce temporally consistent videos. We
strive to bridge this gap, and we introduce a zero-shot approach that produces
temporally consistent videos of animated characters and requires no training or
fine-tuning. We leverage existing text-based motion diffusion models to
generate diverse motions that we utilize to guide a T2I model. To achieve
temporal consistency, we introduce the Spatial Latent Alignment module that
exploits cross-frame dense correspondences that we compute to align the latents
of the video frames. Furthermore, we propose Pixel-Wise Guidance to steer the
diffusion process in a direction that minimizes visual discrepancies. Our
proposed approach generates temporally consistent videos with diverse motions
and styles, outperforming existing zero-shot T2V approaches in terms of
pixel-wise consistency and user preference.
- Abstract(参考訳): 本稿では,事前学習されたテキスト・トゥ・イメージ(T2I)拡散モデルに基づく一貫したテキスト・トゥ・アニメーション・文字合成のためのゼロショット手法を提案する。
既存のtext-to-video(t2v)メソッドはトレーニングに費用がかかり、多様な文字や動きを生成するために大規模なビデオデータセットを必要とする。
同時に、ゼロショットの代替品は時間的に一貫性のあるビデオを作り出すことができない。
我々は,このギャップを埋めるために,アニメーションキャラクタの時間的一貫性のある映像を作成し,トレーニングや微調整を必要としないゼロショット方式を提案する。
既存のテキストに基づく動き拡散モデルを用いて,t2iモデルの誘導に利用する多様な動きを生成する。
時間的整合性を達成するために,ビデオフレームの遅延を整列するために計算するクロスフレーム密度対応を利用した空間潜在アライメントモジュールを導入する。
さらに,Pixel-Wise Guidanceを提案し,視差を最小限に抑える方向に拡散過程を操る。
提案手法は,時間的に一貫した動画を多種多様な動きやスタイルで生成し,画素単位の一貫性とユーザの好みで既存のゼロショットT2Vアプローチより優れている。
関連論文リスト
- StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation [117.13475564834458]
本稿では,一貫性自己注意という新たな自己注意計算手法を提案する。
提案手法を長距離ビデオ生成に拡張するために,新しい意味空間時間運動予測モジュールを導入する。
これら2つの新しいコンポーネントを統合することで、StoryDiffusionと呼ばれるフレームワークは、一貫した画像やビデオでテキストベースのストーリーを記述することができます。
論文 参考訳(メタデータ) (2024-05-02T16:25:16Z) - LoopAnimate: Loopable Salient Object Animation [19.761865029125524]
LoopAnimateは、一貫した開始フレームと終了フレームでビデオを生成する新しい方法である。
忠実度や時間的整合性,主観評価結果など,両指標の最先端性を実現している。
論文 参考訳(メタデータ) (2024-04-14T07:36:18Z) - Pix2Gif: Motion-Guided Diffusion for GIF Generation [70.64240654310754]
画像からGIF(ビデオ)生成のための移動誘導拡散モデルPix2Gifを提案する。
本研究では,2種類のプロンプトに条件付きソース画像の特徴を空間的に変換する動き誘導型ワープモジュールを提案する。
モデルトレーニングの準備として、TGIFビデオキャプチャデータセットからコヒーレントな画像フレームを抽出し、精巧にデータをキュレートした。
論文 参考訳(メタデータ) (2024-03-07T16:18:28Z) - AnimateZero: Video Diffusion Models are Zero-Shot Image Animators [63.938509879469024]
我々はAnimateZeroを提案し、事前訓練されたテキスト・ビデオ拡散モデル、すなわちAnimateDiffを提案する。
外観制御のために,テキスト・ツー・イメージ(T2I)生成から中間潜伏子とその特徴を借りる。
時間的制御では、元のT2Vモデルのグローバルな時間的注意を位置補正窓の注意に置き換える。
論文 参考訳(メタデータ) (2023-12-06T13:39:35Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - MoVideo: Motion-Aware Video Generation with Diffusion Models [97.03352319694795]
本稿では,映像深度と光フローの2つの側面から動きを考慮に入れたモーションアウェア・ジェネレーション(MoVideo)フレームワークを提案する。
MoVideoは、テキスト・トゥ・ビデオと画像・トゥ・ビデオ生成の両方で最先端の結果を達成し、期待できる即時一貫性、フレームの整合性、視覚的品質を示す。
論文 参考訳(メタデータ) (2023-11-19T13:36:03Z) - LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation [44.220329202024494]
我々は,1つのGPU上で816本の動画でテキストから画像への拡散モデルを学習する,数ショットベースのチューニングフレームワーク LAMP を提案する。
具体的には,コンテンツ生成のための既製のテキスト・ツー・イメージモデルを用いて,第1フレーム条件のパイプラインを設計する。
時間次元の特徴を捉えるため、T2Iモデルの事前訓練された2次元畳み込み層を、新しい時間空間運動学習層に拡張する。
論文 参考訳(メタデータ) (2023-10-16T19:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。