論文の概要: AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models
without Specific Tuning
- arxiv url: http://arxiv.org/abs/2307.04725v1
- Date: Mon, 10 Jul 2023 17:34:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 12:13:26.351393
- Title: AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models
without Specific Tuning
- Title(参考訳): AnimateDiff: 特定のチューニングなしで個人化されたテキストと画像の拡散モデルを作る
- Authors: Yuwei Guo, Ceyuan Yang, Anyi Rao, Yaohui Wang, Yu Qiao, Dahua Lin, Bo
Dai
- Abstract要約: 本稿では,既存のパーソナライズされたテキスト・ツー・イメージ・モデルの大部分をアニメーション化するフレームワークを提案する。
提案フレームワークのコアとなるのは,凍結されたテキスト-画像モデルに新たなアニメーション・モーション・モデリング・モジュールを挿入することである。
本研究は,アニメ画像とリアル写真にまたがって,複数の個人化されたテキスト・ツー・イメージ・モデルについて評価を行う。
- 参考スコア(独自算出の注目度): 123.5488963753364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the advance of text-to-image models (e.g., Stable Diffusion) and
corresponding personalization techniques such as DreamBooth and LoRA, everyone
can manifest their imagination into high-quality images at an affordable cost.
Subsequently, there is a great demand for image animation techniques to further
combine generated static images with motion dynamics. In this report, we
propose a practical framework to animate most of the existing personalized
text-to-image models once and for all, saving efforts in model-specific tuning.
At the core of the proposed framework is to insert a newly initialized motion
modeling module into the frozen text-to-image model and train it on video clips
to distill reasonable motion priors. Once trained, by simply injecting this
motion modeling module, all personalized versions derived from the same base
T2I readily become text-driven models that produce diverse and personalized
animated images. We conduct our evaluation on several public representative
personalized text-to-image models across anime pictures and realistic
photographs, and demonstrate that our proposed framework helps these models
generate temporally smooth animation clips while preserving the domain and
diversity of their outputs. Code and pre-trained weights will be publicly
available at https://animatediff.github.io/ .
- Abstract(参考訳): テキスト・ツー・イメージ・モデル(例えば、安定拡散)の進歩とドリームブースやロラのようなそれに対応するパーソナライズ技術により、誰もが手頃な価格で高品質の画像に想像力を発揮できる。
その後、画像アニメーション技術は、生成した静的画像とモーションダイナミックスを更に組み合わせることが要求される。
本報告では,既存のパーソナライズされたテキストから画像へのモデルのほとんどをアニメーション化する実用的なフレームワークを提案する。
提案フレームワークのコアとなるのは,凍結したテキスト・ツー・イメージモデルに新たな初期化動作モデリングモジュールを挿入し,ビデオクリップでトレーニングすることで,適切な動作先を抽出することである。
このモーションモデリングモジュールを単に注入するだけで、同じベースであるT2Iから派生したパーソナライズされたバージョンは、多彩でパーソナライズされたアニメーション画像を生成するテキスト駆動のモデルになる。
我々は,アニメ画像と写実写真にまたがるパーソナライズされたパーソナライズドテキスト・ツー・イメージモデルをいくつか評価し,提案手法が,その領域と出力の多様性を保ちながら,時間的にスムーズなアニメーションクリップ生成を支援することを実証した。
コードとトレーニング済みのウェイトはhttps://animatediff.github.io/で公開されている。
関連論文リスト
- Pix2Gif: Motion-Guided Diffusion for GIF Generation [70.64240654310754]
画像からGIF(ビデオ)生成のための移動誘導拡散モデルPix2Gifを提案する。
本研究では,2種類のプロンプトに条件付きソース画像の特徴を空間的に変換する動き誘導型ワープモジュールを提案する。
モデルトレーニングの準備として、TGIFビデオキャプチャデータセットからコヒーレントな画像フレームを抽出し、精巧にデータをキュレートした。
論文 参考訳(メタデータ) (2024-03-07T16:18:28Z) - Customize-A-Video: One-Shot Motion Customization of Text-to-Video
Diffusion Models [50.65904921917907]
本研究では,単一参照ビデオからの動作をモデル化し,空間的・時間的変化のある新しい主題やシーンに適応するCustomize-A-Videoを提案する。
提案手法は、カスタムビデオ生成や編集、映像の外観のカスタマイズ、複数動作の組み合わせなど、様々な下流タスクに容易に拡張できる。
論文 参考訳(メタデータ) (2024-02-22T18:38:48Z) - Animated Stickers: Bringing Stickers to Life with Video Diffusion [25.81904166775557]
テキストプロンプトと静的画像に条件付きアニメーションを生成するビデオ拡散モデルであるアニメーションステッカーを紹介する。
我々のモデルは、現在最先端のEmuテキスト・ツー・イメージモデルの上に構築されており、動きをモデル化するための時間層が追加されている。
論文 参考訳(メタデータ) (2024-02-08T22:49:32Z) - Ponymation: Learning 3D Animal Motions from Unlabeled Online Videos [50.83155160955368]
生の未ラベルのオンラインビデオから3次元動物の動きを合成する新しい手法を提案する。
我々のモデルは、トレーニングのためにポーズアノテーションや形状モデルを一切必要とせず、インターネットから得られた生のビデオクリップのコレクションから純粋に学習する。
論文 参考訳(メタデータ) (2023-12-21T06:44:18Z) - Text2AC-Zero: Consistent Synthesis of Animated Characters using 2D
Diffusion [52.196540278796476]
本稿では,事前学習されたテキスト・トゥ・イメージ(T2I)拡散モデルに基づく一貫したテキスト・トゥ・アニメーション・文字合成のためのゼロショット手法を提案する。
我々は、既存のテキストベースの動き拡散モデルを利用して、T2Iモデルを誘導する多様な動きを生成する。
提案手法は,時間的に一貫した動画を多種多様な動きやスタイルで生成し,画素単位の一貫性とユーザの好みで既存のゼロショットT2Vアプローチより優れている。
論文 参考訳(メタデータ) (2023-12-12T10:07:37Z) - AnimateZero: Video Diffusion Models are Zero-Shot Image Animators [63.938509879469024]
我々はAnimateZeroを提案し、事前訓練されたテキスト・ビデオ拡散モデル、すなわちAnimateDiffを提案する。
外観制御のために,テキスト・ツー・イメージ(T2I)生成から中間潜伏子とその特徴を借りる。
時間的制御では、元のT2Vモデルのグローバルな時間的注意を位置補正窓の注意に置き換える。
論文 参考訳(メタデータ) (2023-12-06T13:39:35Z) - Generative Rendering: Controllable 4D-Guided Video Generation with 2D
Diffusion Models [40.71940056121056]
本稿では,動的3次元メッシュの制御可能性と,新しい拡散モデルの表現性と編集性を組み合わせた新しいアプローチを提案する。
本手法は,トリグアセットのアニメーションやカメラパスの変更によって,動きを得られる様々な例について実証する。
論文 参考訳(メタデータ) (2023-12-03T14:17:11Z) - MotionDirector: Motion Customization of Text-to-Video Diffusion Models [24.282240656366714]
Motion Customizationは、既存のテキストとビデオの拡散モデルを適用して、カスタマイズされたモーションでビデオを生成することを目的としている。
我々は、外見と動きの学習を分離するために、デュアルパスのLoRAsアーキテクチャを持つMotionDirectorを提案する。
また,異なる動画の外観と動きの混合や,カスタマイズされたモーションによる単一画像のアニメーションなど,さまざまなダウンストリームアプリケーションもサポートしている。
論文 参考訳(メタデータ) (2023-10-12T16:26:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。