論文の概要: AtomoVideo: High Fidelity Image-to-Video Generation
- arxiv url: http://arxiv.org/abs/2403.01800v2
- Date: Tue, 5 Mar 2024 08:19:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 19:48:33.814201
- Title: AtomoVideo: High Fidelity Image-to-Video Generation
- Title(参考訳): atomovideo:高忠実度画像対ビデオ生成技術
- Authors: Litong Gong, Yiran Zhu, Weijie Li, Xiaoyang Kang, Biao Wang, Tiezheng
Ge, Bo Zheng
- Abstract要約: AtomoVideo という画像合成のための高忠実度フレームワークを提案する。
多粒度画像インジェクションに基づいて、生成した映像の忠実度を所定の画像に高める。
我々のアーキテクチャは、ビデオフレーム予測タスクに柔軟に拡張し、反復生成による長いシーケンス予測を可能にする。
- 参考スコア(独自算出の注目度): 25.01443995920118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, video generation has achieved significant rapid development based
on superior text-to-image generation techniques. In this work, we propose a
high fidelity framework for image-to-video generation, named AtomoVideo. Based
on multi-granularity image injection, we achieve higher fidelity of the
generated video to the given image. In addition, thanks to high quality
datasets and training strategies, we achieve greater motion intensity while
maintaining superior temporal consistency and stability. Our architecture
extends flexibly to the video frame prediction task, enabling long sequence
prediction through iterative generation. Furthermore, due to the design of
adapter training, our approach can be well combined with existing personalized
models and controllable modules. By quantitatively and qualitatively
evaluation, AtomoVideo achieves superior results compared to popular methods,
more examples can be found on our project website:
https://atomo-video.github.io/.
- Abstract(参考訳): 近年,優れたテキスト対画像生成技術に基づく映像生成が急速に進展している。
本研究では,AtomoVideo という画像合成のための高忠実度フレームワークを提案する。
マルチグラニュラ性画像インジェクションに基づき、生成された映像を所定の画像に対して高い忠実度を達成する。
さらに,高品質なデータセットとトレーニング戦略のおかげで,時間的一貫性と安定性を維持しつつ,高い運動強度を実現している。
当社のアーキテクチャはビデオフレーム予測タスクに柔軟に拡張し,反復生成による長いシーケンス予測を可能にした。
さらに、アダプタトレーニングの設計により、既存のパーソナライズされたモデルとコントロール可能なモジュールをうまく組み合わせることができる。
atomovideoは、定量的かつ定性的に評価することで、一般的な方法よりも優れた結果を得ることができます。
関連論文リスト
- MimicMotion: High-Quality Human Motion Video Generation with Confidence-aware Pose Guidance [11.267119929093042]
我々は、任意の長さの高品質なビデオを生成することができるMimicMotionと呼ばれる制御可能なビデオ生成フレームワークを提案する。
信頼を意識したポーズガイダンスは、高いフレーム品質と時間的滑らかさを保証する。
長大かつスムーズなビデオを生成するために,我々は進行的な潜伏融合戦略を提案する。
論文 参考訳(メタデータ) (2024-06-28T06:40:53Z) - Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video
Synthesis [69.83405335645305]
映像生成領域に画像モデルの進化をもたらすことによって、動きの忠実度、視覚的品質、スケーラビリティを損なうことが議論されている。
この作業では、これらの課題に体系的に対処するビデオファーストモデルであるSnap Videoを構築します。
画像生成の背後にあるワークホースであるU-Netは、ビデオ生成時に低スケールであり、計算オーバーヘッドがかなり必要であることを示す。
これにより、初めて数十億のパラメータを持つテキスト・ビデオモデルを効率的にトレーニングし、多数のベンチマークで最先端の結果に到達し、はるかに高い品質、時間的一貫性、動きの複雑さの動画を生成することができる。
論文 参考訳(メタデータ) (2024-02-22T18:55:08Z) - DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention and Text Guidance [69.0740091741732]
本研究では,DreamVideo という名前の事前学習ビデオ拡散モデルに基づくフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。
我々のモデルには強力な画像保持能力があり、我々の知る限り、他の画像-映像モデルと比較して、UCF101で最高の結果をもたらす。
論文 参考訳(メタデータ) (2023-12-05T03:16:31Z) - VideoGen: A Reference-Guided Latent Diffusion Approach for High
Definition Text-to-Video Generation [73.54366331493007]
VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。
我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
論文 参考訳(メタデータ) (2023-09-01T11:14:43Z) - Imagen Video: High Definition Video Generation with Diffusion Models [64.06483414521222]
Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。
我々は高精細度ビデオを生成することができるが、高い可制御性と世界的知識を持つ画像n Videoを見いだす。
論文 参考訳(メタデータ) (2022-10-05T14:41:38Z) - HARP: Autoregressive Latent Video Prediction with High-Fidelity Image
Generator [90.74663948713615]
我々は,高忠実度未来のフレームを予測可能な自己回帰遅延映像予測モデルを訓練する。
既存のモデルに最小限の修正を加えて高解像度(256x256)ビデオを作成する。
論文 参考訳(メタデータ) (2022-09-15T08:41:57Z) - Video Diffusion Models [47.99413440461512]
時間的コヒーレントな高忠実度ビデオの生成は、生成モデリング研究において重要なマイルストーンである。
本稿では,ビデオ生成のための拡散モデルを提案する。
そこで本研究では,テキスト条件付きビデオ生成タスクにおける最初の結果と,未条件のビデオ生成ベンチマークにおける最新結果について述べる。
論文 参考訳(メタデータ) (2022-04-07T14:08:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。