論文の概要: AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models
without Specific Tuning
- arxiv url: http://arxiv.org/abs/2307.04725v1
- Date: Mon, 10 Jul 2023 17:34:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 12:13:26.351393
- Title: AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models
without Specific Tuning
- Title(参考訳): AnimateDiff: 特定のチューニングなしで個人化されたテキストと画像の拡散モデルを作る
- Authors: Yuwei Guo, Ceyuan Yang, Anyi Rao, Yaohui Wang, Yu Qiao, Dahua Lin, Bo
Dai
- Abstract要約: 本稿では,既存のパーソナライズされたテキスト・ツー・イメージ・モデルの大部分をアニメーション化するフレームワークを提案する。
提案フレームワークのコアとなるのは,凍結されたテキスト-画像モデルに新たなアニメーション・モーション・モデリング・モジュールを挿入することである。
本研究は,アニメ画像とリアル写真にまたがって,複数の個人化されたテキスト・ツー・イメージ・モデルについて評価を行う。
- 参考スコア(独自算出の注目度): 123.5488963753364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the advance of text-to-image models (e.g., Stable Diffusion) and
corresponding personalization techniques such as DreamBooth and LoRA, everyone
can manifest their imagination into high-quality images at an affordable cost.
Subsequently, there is a great demand for image animation techniques to further
combine generated static images with motion dynamics. In this report, we
propose a practical framework to animate most of the existing personalized
text-to-image models once and for all, saving efforts in model-specific tuning.
At the core of the proposed framework is to insert a newly initialized motion
modeling module into the frozen text-to-image model and train it on video clips
to distill reasonable motion priors. Once trained, by simply injecting this
motion modeling module, all personalized versions derived from the same base
T2I readily become text-driven models that produce diverse and personalized
animated images. We conduct our evaluation on several public representative
personalized text-to-image models across anime pictures and realistic
photographs, and demonstrate that our proposed framework helps these models
generate temporally smooth animation clips while preserving the domain and
diversity of their outputs. Code and pre-trained weights will be publicly
available at https://animatediff.github.io/ .
- Abstract(参考訳): テキスト・ツー・イメージ・モデル(例えば、安定拡散)の進歩とドリームブースやロラのようなそれに対応するパーソナライズ技術により、誰もが手頃な価格で高品質の画像に想像力を発揮できる。
その後、画像アニメーション技術は、生成した静的画像とモーションダイナミックスを更に組み合わせることが要求される。
本報告では,既存のパーソナライズされたテキストから画像へのモデルのほとんどをアニメーション化する実用的なフレームワークを提案する。
提案フレームワークのコアとなるのは,凍結したテキスト・ツー・イメージモデルに新たな初期化動作モデリングモジュールを挿入し,ビデオクリップでトレーニングすることで,適切な動作先を抽出することである。
このモーションモデリングモジュールを単に注入するだけで、同じベースであるT2Iから派生したパーソナライズされたバージョンは、多彩でパーソナライズされたアニメーション画像を生成するテキスト駆動のモデルになる。
我々は,アニメ画像と写実写真にまたがるパーソナライズされたパーソナライズドテキスト・ツー・イメージモデルをいくつか評価し,提案手法が,その領域と出力の多様性を保ちながら,時間的にスムーズなアニメーションクリップ生成を支援することを実証した。
コードとトレーニング済みのウェイトはhttps://animatediff.github.io/で公開されている。
関連論文リスト
- Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics [67.97235923372035]
本稿では,対話型ビデオ生成モデルであるPuppet-Masterについて紹介する。
テスト時には、ひとつのイメージと粗い動き軌跡が与えられた場合、Puppet-Masterは、与えられたドラッグ操作に忠実な現実的な部分レベルの動きを描写したビデオを合成することができる。
論文 参考訳(メタデータ) (2024-08-08T17:59:38Z) - EasyAnimate: A High-Performance Long Video Generation Method based on Transformer Architecture [11.587428534308945]
EasyAnimateは、高性能な結果を得るためにトランスフォーマーアーキテクチャのパワーを利用する、ビデオ生成の先進的な方法である。
動作モジュールブロックを組み込んで,3次元映像生成の複雑さに対応するために,当初2次元画像合成用に設計されたDiTフレームワークを拡張した。
我々は、データ前処理、VAEトレーニング、DiTモデルトレーニング、エンドツーエンドのビデオ推論といった側面を含む、DiTに基づくビデオ制作のための総合的なエコシステムを提供する。
論文 参考訳(メタデータ) (2024-05-29T11:11:07Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - Pix2Gif: Motion-Guided Diffusion for GIF Generation [70.64240654310754]
画像からGIF(ビデオ)生成のための移動誘導拡散モデルPix2Gifを提案する。
本研究では,2種類のプロンプトに条件付きソース画像の特徴を空間的に変換する動き誘導型ワープモジュールを提案する。
モデルトレーニングの準備として、TGIFビデオキャプチャデータセットからコヒーレントな画像フレームを抽出し、精巧にデータをキュレートした。
論文 参考訳(メタデータ) (2024-03-07T16:18:28Z) - Customize-A-Video: One-Shot Motion Customization of Text-to-Video Diffusion Models [48.56724784226513]
本研究では,単一参照ビデオからの動作をモデル化し,空間的・時間的変化のある新しい主題やシーンに適応するCustomize-A-Videoを提案する。
提案するモジュールは、ステージ化されたパイプラインでトレーニングされ、プラグイン・アンド・プレイ方式で推論され、様々な下流タスクへの容易に拡張できる。
論文 参考訳(メタデータ) (2024-02-22T18:38:48Z) - Animated Stickers: Bringing Stickers to Life with Video Diffusion [25.81904166775557]
テキストプロンプトと静的画像に条件付きアニメーションを生成するビデオ拡散モデルであるアニメーションステッカーを紹介する。
我々のモデルは、現在最先端のEmuテキスト・ツー・イメージモデルの上に構築されており、動きをモデル化するための時間層が追加されている。
論文 参考訳(メタデータ) (2024-02-08T22:49:32Z) - AnimateZero: Video Diffusion Models are Zero-Shot Image Animators [63.938509879469024]
我々はAnimateZeroを提案し、事前訓練されたテキスト・ビデオ拡散モデル、すなわちAnimateDiffを提案する。
外観制御のために,テキスト・ツー・イメージ(T2I)生成から中間潜伏子とその特徴を借りる。
時間的制御では、元のT2Vモデルのグローバルな時間的注意を位置補正窓の注意に置き換える。
論文 参考訳(メタデータ) (2023-12-06T13:39:35Z) - MotionDirector: Motion Customization of Text-to-Video Diffusion Models [24.282240656366714]
Motion Customizationは、既存のテキストとビデオの拡散モデルを適用して、カスタマイズされたモーションでビデオを生成することを目的としている。
我々は、外見と動きの学習を分離するために、デュアルパスのLoRAsアーキテクチャを持つMotionDirectorを提案する。
また,異なる動画の外観と動きの混合や,カスタマイズされたモーションによる単一画像のアニメーションなど,さまざまなダウンストリームアプリケーションもサポートしている。
論文 参考訳(メタデータ) (2023-10-12T16:26:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。