論文の概要: AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models
without Specific Tuning
- arxiv url: http://arxiv.org/abs/2307.04725v2
- Date: Thu, 8 Feb 2024 18:08:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 19:38:44.609372
- Title: AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models
without Specific Tuning
- Title(参考訳): AnimateDiff: 特定のチューニングなしで個人化されたテキストと画像の拡散モデルを作る
- Authors: Yuwei Guo, Ceyuan Yang, Anyi Rao, Zhengyang Liang, Yaohui Wang, Yu
Qiao, Maneesh Agrawala, Dahua Lin, Bo Dai
- Abstract要約: AnimateDiffは、モデル固有のチューニングを必要とせずに、パーソナライズされたT2Iモデルをアニメーションするためのフレームワークである。
我々は,AnimateDiffの軽量微調整技術であるMotionLoRAを提案する。
その結果,これらのモデルが視覚的品質と動きの多様性を保ちながら,時間的にスムーズなアニメーションクリップを生成するのに有効であることが示唆された。
- 参考スコア(独自算出の注目度): 92.33690050667475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advance of text-to-image (T2I) diffusion models (e.g., Stable
Diffusion) and corresponding personalization techniques such as DreamBooth and
LoRA, everyone can manifest their imagination into high-quality images at an
affordable cost. However, adding motion dynamics to existing high-quality
personalized T2Is and enabling them to generate animations remains an open
challenge. In this paper, we present AnimateDiff, a practical framework for
animating personalized T2I models without requiring model-specific tuning. At
the core of our framework is a plug-and-play motion module that can be trained
once and seamlessly integrated into any personalized T2Is originating from the
same base T2I. Through our proposed training strategy, the motion module
effectively learns transferable motion priors from real-world videos. Once
trained, the motion module can be inserted into a personalized T2I model to
form a personalized animation generator. We further propose MotionLoRA, a
lightweight fine-tuning technique for AnimateDiff that enables a pre-trained
motion module to adapt to new motion patterns, such as different shot types, at
a low training and data collection cost. We evaluate AnimateDiff and MotionLoRA
on several public representative personalized T2I models collected from the
community. The results demonstrate that our approaches help these models
generate temporally smooth animation clips while preserving the visual quality
and motion diversity. Codes and pre-trained weights are available at
https://github.com/guoyww/AnimateDiff.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデル(例えば、安定拡散)の進歩とドリームブースやロラのようなそれに対応するパーソナライズ技術により、誰もが高画質の画像に手頃なコストで想像力を表現できる。
しかし、既存の高品質のパーソナライズされたT2Iにモーションダイナミクスを追加し、アニメーションを生成することはオープンな課題である。
本稿では、モデル固有のチューニングを必要とせず、パーソナライズされたt2iモデルをアニメーションするための実用的なフレームワークであるanimationiffを提案する。
私たちのフレームワークの中核は、同じベースであるT2Iから派生したパーソナライズされたT2Iに一度、シームレスに統合できる、プラグインとプレイのモーションモジュールです。
提案する学習戦略により,モーションモジュールは実世界ビデオから転送可能な動作先行を効果的に学習する。
一度トレーニングすると、モーションモジュールはパーソナライズされたt2iモデルに挿入され、パーソナライズされたアニメーションジェネレータを形成する。
さらに、AnimateDiffの軽量な微調整技術であるMotionLoRAを提案し、トレーニング済みのモーションモジュールが、異なるショットタイプなどの新しいモーションパターンに、低トレーニングとデータ収集コストで適応できるようにする。
我々はAnimateDiffとMotionLoRAを,コミュニティから収集した個人化されたT2Iモデルを用いて評価した。
その結果,視覚品質と運動の多様性を保ちつつ,これらのモデルが時間的にスムーズなアニメーションクリップを生成するのに役立つことがわかった。
コードはhttps://github.com/guoyww/animatediff.com/。
関連論文リスト
- Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics [67.97235923372035]
本稿では,対話型ビデオ生成モデルであるPuppet-Masterについて紹介する。
テスト時には、ひとつのイメージと粗い動き軌跡が与えられた場合、Puppet-Masterは、与えられたドラッグ操作に忠実な現実的な部分レベルの動きを描写したビデオを合成することができる。
論文 参考訳(メタデータ) (2024-08-08T17:59:38Z) - EasyAnimate: A High-Performance Long Video Generation Method based on Transformer Architecture [11.587428534308945]
EasyAnimateは、高性能な結果を得るためにトランスフォーマーアーキテクチャのパワーを利用する、ビデオ生成の先進的な方法である。
動作モジュールブロックを組み込んで,3次元映像生成の複雑さに対応するために,当初2次元画像合成用に設計されたDiTフレームワークを拡張した。
我々は、データ前処理、VAEトレーニング、DiTモデルトレーニング、エンドツーエンドのビデオ推論といった側面を含む、DiTに基づくビデオ制作のための総合的なエコシステムを提供する。
論文 参考訳(メタデータ) (2024-05-29T11:11:07Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - Pix2Gif: Motion-Guided Diffusion for GIF Generation [70.64240654310754]
画像からGIF(ビデオ)生成のための移動誘導拡散モデルPix2Gifを提案する。
本研究では,2種類のプロンプトに条件付きソース画像の特徴を空間的に変換する動き誘導型ワープモジュールを提案する。
モデルトレーニングの準備として、TGIFビデオキャプチャデータセットからコヒーレントな画像フレームを抽出し、精巧にデータをキュレートした。
論文 参考訳(メタデータ) (2024-03-07T16:18:28Z) - Customize-A-Video: One-Shot Motion Customization of Text-to-Video Diffusion Models [48.56724784226513]
本研究では,単一参照ビデオからの動作をモデル化し,空間的・時間的変化のある新しい主題やシーンに適応するCustomize-A-Videoを提案する。
提案するモジュールは、ステージ化されたパイプラインでトレーニングされ、プラグイン・アンド・プレイ方式で推論され、様々な下流タスクへの容易に拡張できる。
論文 参考訳(メタデータ) (2024-02-22T18:38:48Z) - Animated Stickers: Bringing Stickers to Life with Video Diffusion [25.81904166775557]
テキストプロンプトと静的画像に条件付きアニメーションを生成するビデオ拡散モデルであるアニメーションステッカーを紹介する。
我々のモデルは、現在最先端のEmuテキスト・ツー・イメージモデルの上に構築されており、動きをモデル化するための時間層が追加されている。
論文 参考訳(メタデータ) (2024-02-08T22:49:32Z) - AnimateZero: Video Diffusion Models are Zero-Shot Image Animators [63.938509879469024]
我々はAnimateZeroを提案し、事前訓練されたテキスト・ビデオ拡散モデル、すなわちAnimateDiffを提案する。
外観制御のために,テキスト・ツー・イメージ(T2I)生成から中間潜伏子とその特徴を借りる。
時間的制御では、元のT2Vモデルのグローバルな時間的注意を位置補正窓の注意に置き換える。
論文 参考訳(メタデータ) (2023-12-06T13:39:35Z) - MotionDirector: Motion Customization of Text-to-Video Diffusion Models [24.282240656366714]
Motion Customizationは、既存のテキストとビデオの拡散モデルを適用して、カスタマイズされたモーションでビデオを生成することを目的としている。
我々は、外見と動きの学習を分離するために、デュアルパスのLoRAsアーキテクチャを持つMotionDirectorを提案する。
また,異なる動画の外観と動きの混合や,カスタマイズされたモーションによる単一画像のアニメーションなど,さまざまなダウンストリームアプリケーションもサポートしている。
論文 参考訳(メタデータ) (2023-10-12T16:26:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。