論文の概要: I4VGen: Image as Stepping Stone for Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2406.02230v1
- Date: Tue, 4 Jun 2024 11:48:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 16:32:17.877609
- Title: I4VGen: Image as Stepping Stone for Text-to-Video Generation
- Title(参考訳): I4VGen:テキスト・ビデオ・ジェネレーションのためのステッピングストーンとしてのイメージ
- Authors: Xiefan Guo, Jinlin Liu, Miaomiao Cui, Di Huang,
- Abstract要約: I4VGenは、トレーニングフリーでプラグアンドプレイのビデオ拡散推論フレームワークである。
堅牢な画像技術を活用することで、テキスト・ビデオ生成を強化する。
I4VGenは、より高いビジュアルリアリズムとテキスト忠実度を持つビデオを生成する。
- 参考スコア(独自算出の注目度): 22.3850273729521
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-video generation has lagged behind text-to-image synthesis in quality and diversity due to the complexity of spatio-temporal modeling and limited video-text datasets. This paper presents I4VGen, a training-free and plug-and-play video diffusion inference framework, which enhances text-to-video generation by leveraging robust image techniques. Specifically, following text-to-image-to-video, I4VGen decomposes the text-to-video generation into two stages: anchor image synthesis and anchor image-guided video synthesis. Correspondingly, a well-designed generation-selection pipeline is employed to achieve visually-realistic and semantically-faithful anchor image, and an innovative Noise-Invariant Video Score Distillation Sampling is incorporated to animate the image to a dynamic video, followed by a video regeneration process to refine the video. This inference strategy effectively mitigates the prevalent issue of non-zero terminal signal-to-noise ratio. Extensive evaluations show that I4VGen not only produces videos with higher visual realism and textual fidelity but also integrates seamlessly into existing image-to-video diffusion models, thereby improving overall video quality.
- Abstract(参考訳): テキスト・ツー・ビデオ生成は、時空間モデリングと制限されたビデオテキストデータセットの複雑さにより、品質と多様性のテキスト・ツー・イメージ合成に遅れを取っている。
本稿では、ロバストな画像技術を活用して、テキスト・ツー・ビデオ生成を向上させる、トレーニングフリーでプラグ・アンド・プレイの動画拡散推論フレームワークであるI4VGenを提案する。
具体的には、テキスト・トゥ・イメージ・トゥ・ビデオに続いて、I4VGenは、テキスト・トゥ・ビデオ生成をアンカー画像合成とアンカー画像誘導ビデオ合成の2段階に分解する。
それに対応して、視覚的にリアルでセマンティックに忠実なアンカー画像を実現するために、よく設計された世代選択パイプラインが採用され、ダイナミックビデオに画像をアニメーションするために、革新的なノイズ不変ビデオスコア蒸留サンプリングが組み込まれ、その後、ビデオ再生処理によって映像を洗練する。
この推論戦略は、非ゼロ終端信号対雑音比の一般的な問題を効果的に緩和する。
広汎な評価の結果,I4VGenは高解像度のビジュアルリアリズムとテキスト忠実度を持つビデオを生成するだけでなく,既存の画像とビデオの拡散モデルとシームレスに統合することで,全体的な画質の向上を実現している。
関連論文リスト
- ShareGPT4Video: Improving Video Understanding and Generation with Better Captions [93.29360532845062]
本稿では,大容量ビデオ言語モデル(LVLM)の映像理解と,高密度かつ高精度なキャプションによるテキスト・ツー・ビデオモデル(T2VM)のビデオ生成を目的としたShareGPT4Videoシリーズを紹介する。
ShareGPT4Video, 40K GPT4V Annotated dense Casts of video with various lengths and sources, developed through carefully designed data filtering and annotating strategy。
さらに,任意の動画に対して高品質なキャプションを効率よく生成できる優れたキャプションキャプタであるShareCaptioner-Videoを開発した。
論文 参考訳(メタデータ) (2024-06-06T17:58:54Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - VideoGen: A Reference-Guided Latent Diffusion Approach for High
Definition Text-to-Video Generation [73.54366331493007]
VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。
我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
論文 参考訳(メタデータ) (2023-09-01T11:14:43Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - Style-A-Video: Agile Diffusion for Arbitrary Text-based Video Style
Transfer [13.098901971644656]
本稿では,Style-A-Video というゼロショットビデオスタイリング手法を提案する。
画像遅延拡散モデルを用いた生成事前学習型トランスフォーマーを用いて、簡潔なテキスト制御ビデオスタイリングを実現する。
テストの結果,従来のソリューションよりも少ない使用量で,優れたコンテンツ保存とスタイリスティックな性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-09T14:03:27Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z) - TiVGAN: Text to Image to Video Generation with Step-by-Step Evolutionary
Generator [34.7504057664375]
本稿では、フレーム単位で進化し、最終的にフル長のビデオを生成する新しいトレーニングフレームワーク、Text-to-Image-to-Video Generative Adversarial Network (TiVGAN)を提案する。
ステップバイステップの学習プロセスは、トレーニングの安定化を支援し、条件付きテキスト記述に基づく高解像度ビデオの作成を可能にする。
論文 参考訳(メタデータ) (2020-09-04T06:33:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。