論文の概要: LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation
- arxiv url: http://arxiv.org/abs/2310.10769v1
- Date: Mon, 16 Oct 2023 19:03:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 19:18:53.743151
- Title: LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation
- Title(参考訳): LAMP:Few-Shotベースの動画生成のためのモーションパターンを学ぶ
- Authors: Ruiqi Wu, Liangyu Chen, Tong Yang, Chunle Guo, Chongyi Li, Xiangyu
Zhang
- Abstract要約: 我々は,1つのGPU上で816本の動画でテキストから画像への拡散モデルを学習する,数ショットベースのチューニングフレームワーク LAMP を提案する。
具体的には,コンテンツ生成のための既製のテキスト・ツー・イメージモデルを用いて,第1フレーム条件のパイプラインを設計する。
時間次元の特徴を捉えるため、T2Iモデルの事前訓練された2次元畳み込み層を、新しい時間空間運動学習層に拡張する。
- 参考スコア(独自算出の注目度): 44.220329202024494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the impressive progress in diffusion-based text-to-image generation,
extending such powerful generative ability to text-to-video raises enormous
attention. Existing methods either require large-scale text-video pairs and a
large number of training resources or learn motions that are precisely aligned
with template videos. It is non-trivial to balance a trade-off between the
degree of generation freedom and the resource costs for video generation. In
our study, we present a few-shot-based tuning framework, LAMP, which enables
text-to-image diffusion model Learn A specific Motion Pattern with 8~16 videos
on a single GPU. Specifically, we design a first-frame-conditioned pipeline
that uses an off-the-shelf text-to-image model for content generation so that
our tuned video diffusion model mainly focuses on motion learning. The
well-developed text-to-image techniques can provide visually pleasing and
diverse content as generation conditions, which highly improves video quality
and generation freedom. To capture the features of temporal dimension, we
expand the pretrained 2D convolution layers of the T2I model to our novel
temporal-spatial motion learning layers and modify the attention blocks to the
temporal level. Additionally, we develop an effective inference trick,
shared-noise sampling, which can improve the stability of videos with
computational costs. Our method can also be flexibly applied to other tasks,
e.g. real-world image animation and video editing. Extensive experiments
demonstrate that LAMP can effectively learn the motion pattern on limited data
and generate high-quality videos. The code and models are available at
https://rq-wu.github.io/projects/LAMP.
- Abstract(参考訳): 拡散に基づくテキスト対画像生成の素晴らしい進歩により、テキスト対ビデオの強力な生成能力の拡張が注目を集めている。
既存の方法は、大規模なテキストビデオペアと多数のトレーニングリソースを必要とするか、テンプレートビデオと正確に一致したモーションを学習する。
生成の自由度とビデオ生成のリソースコストのトレードオフをバランスさせることは簡単ではない。
本研究では,1つのGPU上で8~16本の動画でテキスト・画像拡散モデルの学習を可能にする,数ショットベースのチューニングフレームワークであるLAMPを提案する。
具体的には,コンテンツ生成のためのオフザシェルフテキスト・ツー・イメージモデルを用いたファーストフレーム・コンディショニングパイプラインを設計し,主にモーション学習に焦点を当てたビデオ拡散モデルを提案する。
高度に開発されたテキストから画像への技術は、視覚的に快適で多様なコンテンツを生成条件として提供し、ビデオの品質と生成の自由を高度に向上させる。
時間次元の特徴を捉えるために,t2iモデルの事前学習された2次元畳み込み層を,新たな時間空間運動学習層に拡張し,注意ブロックを時間レベルに修正する。
さらに,効率的な推論手法である共有ノイズサンプリングを開発し,計算コストで動画の安定性を向上させる。
また,本手法は他のタスク,例えば実世界の画像アニメーションやビデオ編集にも柔軟に適用できる。
広範な実験により、lampは限られたデータで運動パターンを効果的に学習し、高品質のビデオを生成することができる。
コードとモデルはhttps://rq-wu.github.io/projects/LAMPで公開されている。
関連論文リスト
- Video-LaVIT: Unified Video-Language Pre-training with Decoupled
Visual-Motional Tokenization [53.92519123600325]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Text2AC-Zero: Consistent Synthesis of Animated Characters using 2D
Diffusion [52.196540278796476]
本稿では,事前学習されたテキスト・トゥ・イメージ(T2I)拡散モデルに基づく一貫したテキスト・トゥ・アニメーション・文字合成のためのゼロショット手法を提案する。
我々は、既存のテキストベースの動き拡散モデルを利用して、T2Iモデルを誘導する多様な動きを生成する。
提案手法は,時間的に一貫した動画を多種多様な動きやスタイルで生成し,画素単位の一貫性とユーザの好みで既存のゼロショットT2Vアプローチより優れている。
論文 参考訳(メタデータ) (2023-12-12T10:07:37Z) - AnimateZero: Video Diffusion Models are Zero-Shot Image Animators [63.938509879469024]
我々はAnimateZeroを提案し、事前訓練されたテキスト・ビデオ拡散モデル、すなわちAnimateDiffを提案する。
外観制御のために,テキスト・ツー・イメージ(T2I)生成から中間潜伏子とその特徴を借りる。
時間的制御では、元のT2Vモデルのグローバルな時間的注意を位置補正窓の注意に置き換える。
論文 参考訳(メタデータ) (2023-12-06T13:39:35Z) - BIVDiff: A Training-Free Framework for General-Purpose Video Synthesis
via Bridging Image and Video Diffusion Models [43.16856756058962]
本稿では,BIVDiffと命名されたトレーニング不要な汎用ビデオ合成フレームワークを提案する。
まず、フレームワイド映像生成に画像拡散モデルを使用し、次いで、生成されたビデオ上でMixed Inversionを行い、最後に、時間的平滑化のためにビデオ拡散モデルに反転潜像を入力する。
BIVDiffの有効性と汎用性を検証するため、制御可能なビデオ生成ビデオ編集、ビデオインペイント、アウトペイントなど、幅広い映像生成タスクを実行する。
論文 参考訳(メタデータ) (2023-12-05T14:56:55Z) - Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large
Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細
我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文 参考訳(メタデータ) (2023-11-25T22:28:38Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z) - TiVGAN: Text to Image to Video Generation with Step-by-Step Evolutionary
Generator [34.7504057664375]
本稿では、フレーム単位で進化し、最終的にフル長のビデオを生成する新しいトレーニングフレームワーク、Text-to-Image-to-Video Generative Adversarial Network (TiVGAN)を提案する。
ステップバイステップの学習プロセスは、トレーニングの安定化を支援し、条件付きテキスト記述に基づく高解像度ビデオの作成を可能にする。
論文 参考訳(メタデータ) (2020-09-04T06:33:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。