Fugu-MT 論文翻訳(概要): AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

論文の概要: AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

arxiv url: http://arxiv.org/abs/2307.04725v1
Date: Mon, 10 Jul 2023 17:34:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-11 12:13:26.351393
Title: AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning
Title（参考訳）: AnimateDiff: 特定のチューニングなしで個人化されたテキストと画像の拡散モデルを作る
Authors: Yuwei Guo, Ceyuan Yang, Anyi Rao, Yaohui Wang, Yu Qiao, Dahua Lin, Bo Dai
Abstract要約: 本稿では,既存のパーソナライズされたテキスト・ツー・イメージ・モデルの大部分をアニメーション化するフレームワークを提案する。提案フレームワークのコアとなるのは,凍結されたテキスト-画像モデルに新たなアニメーション・モーション・モデリング・モジュールを挿入することである。本研究は,アニメ画像とリアル写真にまたがって,複数の個人化されたテキスト・ツー・イメージ・モデルについて評価を行う。
参考スコア（独自算出の注目度）: 123.5488963753364
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the advance of text-to-image models (e.g., Stable Diffusion) and corresponding personalization techniques such as DreamBooth and LoRA, everyone can manifest their imagination into high-quality images at an affordable cost. Subsequently, there is a great demand for image animation techniques to further combine generated static images with motion dynamics. In this report, we propose a practical framework to animate most of the existing personalized text-to-image models once and for all, saving efforts in model-specific tuning. At the core of the proposed framework is to insert a newly initialized motion modeling module into the frozen text-to-image model and train it on video clips to distill reasonable motion priors. Once trained, by simply injecting this motion modeling module, all personalized versions derived from the same base T2I readily become text-driven models that produce diverse and personalized animated images. We conduct our evaluation on several public representative personalized text-to-image models across anime pictures and realistic photographs, and demonstrate that our proposed framework helps these models generate temporally smooth animation clips while preserving the domain and diversity of their outputs. Code and pre-trained weights will be publicly available at https://animatediff.github.io/ .
Abstract（参考訳）: テキスト・ツー・イメージ・モデル(例えば、安定拡散)の進歩とドリームブースやロラのようなそれに対応するパーソナライズ技術により、誰もが手頃な価格で高品質の画像に想像力を発揮できる。その後、画像アニメーション技術は、生成した静的画像とモーションダイナミックスを更に組み合わせることが要求される。本報告では,既存のパーソナライズされたテキストから画像へのモデルのほとんどをアニメーション化する実用的なフレームワークを提案する。提案フレームワークのコアとなるのは,凍結したテキスト・ツー・イメージモデルに新たな初期化動作モデリングモジュールを挿入し,ビデオクリップでトレーニングすることで,適切な動作先を抽出することである。このモーションモデリングモジュールを単に注入するだけで、同じベースであるT2Iから派生したパーソナライズされたバージョンは、多彩でパーソナライズされたアニメーション画像を生成するテキスト駆動のモデルになる。我々は,アニメ画像と写実写真にまたがるパーソナライズされたパーソナライズドテキスト・ツー・イメージモデルをいくつか評価し,提案手法が,その領域と出力の多様性を保ちながら,時間的にスムーズなアニメーションクリップ生成を支援することを実証した。コードとトレーニング済みのウェイトはhttps://animatediff.github.io/で公開されている。

関連論文リスト

DreamDance: Animating Character Art via Inpainting Stable Gaussian Worlds [64.53681498600065]
ドリームダンス(DreamDance)は、安定的で一貫したキャラクタと、正確なカメラ軌跡を条件としたシーンの動きを生成できるアニメーションフレームワークである。我々は、背景品質を高めつつ、動的キャラクタをシーンビデオに注入する、ポーズ対応ビデオ塗装モデルを訓練する。
論文参考訳（メタデータ） (2025-05-30T15:54:34Z)
Animating the Uncaptured: Humanoid Mesh Animation with Video Diffusion Models [71.78723353724493]
ヒューマノイド文字のアニメーションは、様々なグラフィックス応用において不可欠である。入力された静的な3次元ヒューマノイドメッシュの4次元アニメーションシーケンスを合成する手法を提案する。
論文参考訳（メタデータ） (2025-03-20T10:00:22Z)
MotionCanvas: Cinematic Shot Design with Controllable Image-to-Video Generation [65.74312406211213]
本稿では,映像生成の文脈で撮影映像を設計する手法を提案する。 I2V合成において,従来のコンピュータグラフィックスと現代映像生成技術からの洞察を結合することにより,3次元動作制御を実現する能力を示す。
論文参考訳（メタデータ） (2025-02-06T18:41:04Z)
MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models [59.10171699717122]
MoTransは、新しいコンテキストにおける類似した動きのビデオ生成を可能にする、カスタマイズされたモーション転送方式である。再カプセル化されたプロンプトとビデオフレームからのマルチモーダル表現は、外観のモデリングを促進する。本手法は, 特定の動きパターンを, 単一の参照ビデオや複数参照ビデオから効果的に学習する。
論文参考訳（メタデータ） (2024-12-02T10:07:59Z)
Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics [67.97235923372035]
本稿では,対話型ビデオ生成モデルであるPuppet-Masterについて紹介する。テスト時には、ひとつのイメージと粗い動き軌跡が与えられた場合、Puppet-Masterは、与えられたドラッグ操作に忠実な現実的な部分レベルの動きを描写したビデオを合成することができる。
論文参考訳（メタデータ） (2024-08-08T17:59:38Z)
EasyAnimate: A High-Performance Long Video Generation Method based on Transformer Architecture [11.587428534308945]
EasyAnimateは、高性能な結果を得るためにトランスフォーマーアーキテクチャのパワーを利用する、ビデオ生成の先進的な方法である。動作モジュールブロックを組み込んで,3次元映像生成の複雑さに対応するために,当初2次元画像合成用に設計されたDiTフレームワークを拡張した。我々は、データ前処理、VAEトレーニング、DiTモデルトレーニング、エンドツーエンドのビデオ推論といった側面を含む、DiTに基づくビデオ制作のための総合的なエコシステムを提供する。
論文参考訳（メタデータ） (2024-05-29T11:11:07Z)
Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。 SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文参考訳（メタデータ） (2024-03-15T10:36:24Z)
Pix2Gif: Motion-Guided Diffusion for GIF Generation [70.64240654310754]
画像からGIF(ビデオ)生成のための移動誘導拡散モデルPix2Gifを提案する。本研究では,2種類のプロンプトに条件付きソース画像の特徴を空間的に変換する動き誘導型ワープモジュールを提案する。モデルトレーニングの準備として、TGIFビデオキャプチャデータセットからコヒーレントな画像フレームを抽出し、精巧にデータをキュレートした。
論文参考訳（メタデータ） (2024-03-07T16:18:28Z)
Customize-A-Video: One-Shot Motion Customization of Text-to-Video Diffusion Models [48.56724784226513]
本研究では,単一参照ビデオからの動作をモデル化し,空間的・時間的変化のある新しい主題やシーンに適応するCustomize-A-Videoを提案する。提案するモジュールは、ステージ化されたパイプラインでトレーニングされ、プラグイン・アンド・プレイ方式で推論され、様々な下流タスクへの容易に拡張できる。
論文参考訳（メタデータ） (2024-02-22T18:38:48Z)
Animated Stickers: Bringing Stickers to Life with Video Diffusion [25.81904166775557]
テキストプロンプトと静的画像に条件付きアニメーションを生成するビデオ拡散モデルであるアニメーションステッカーを紹介する。我々のモデルは、現在最先端のEmuテキスト・ツー・イメージモデルの上に構築されており、動きをモデル化するための時間層が追加されている。
論文参考訳（メタデータ） (2024-02-08T22:49:32Z)
AnimateZero: Video Diffusion Models are Zero-Shot Image Animators [63.938509879469024]
我々はAnimateZeroを提案し、事前訓練されたテキスト・ビデオ拡散モデル、すなわちAnimateDiffを提案する。外観制御のために,テキスト・ツー・イメージ(T2I)生成から中間潜伏子とその特徴を借りる。時間的制御では、元のT2Vモデルのグローバルな時間的注意を位置補正窓の注意に置き換える。
論文参考訳（メタデータ） (2023-12-06T13:39:35Z)
MotionDirector: Motion Customization of Text-to-Video Diffusion Models [24.282240656366714]
Motion Customizationは、既存のテキストとビデオの拡散モデルを適用して、カスタマイズされたモーションでビデオを生成することを目的としている。我々は、外見と動きの学習を分離するために、デュアルパスのLoRAsアーキテクチャを持つMotionDirectorを提案する。また,異なる動画の外観と動きの混合や,カスタマイズされたモーションによる単一画像のアニメーションなど,さまざまなダウンストリームアプリケーションもサポートしている。
論文参考訳（メタデータ） (2023-10-12T16:26:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。