論文の概要: MTVG : Multi-text Video Generation with Text-to-Video Models
- arxiv url: http://arxiv.org/abs/2312.04086v1
- Date: Thu, 7 Dec 2023 06:53:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 15:53:03.501944
- Title: MTVG : Multi-text Video Generation with Text-to-Video Models
- Title(参考訳): mtvg : テキスト対ビデオモデルを用いたマルチテキストビデオ生成
- Authors: Gyeongrok Oh, Jaehwan Jeong, Sieun Kim, Wonmin Byeon, Jinkyu Kim,
Sungwoong Kim, Hyeokmin Kwon, Sangpil Kim
- Abstract要約: 本稿では,事前学習した拡散型テキスト・ツー・ビデオ(T2V)生成モデルを用いて,新たなマルチテキスト・ビデオ生成(MTVG)を提案する。
提案手法は,セマンティック・コヒーレントかつ時間的にシームレスなビデオの観点で,優れた出力を示す。
- 参考スコア(独自算出の注目度): 18.06640097064693
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recently, video generation has attracted massive attention and yielded
noticeable outcomes. Concerning the characteristics of video, multi-text
conditioning incorporating sequential events is necessary for next-step video
generation. In this work, we propose a novel multi-text video generation~(MTVG)
by directly utilizing a pre-trained diffusion-based text-to-video~(T2V)
generation model without additional fine-tuning. To generate consecutive video
segments, visual consistency generated by distinct prompts is necessary with
diverse variations, such as motion and content-related transitions. Our
proposed MTVG includes Dynamic Noise and Last Frame Aware Inversion which
reinitialize the noise latent to preserve visual coherence between videos of
different prompts and prevent repetitive motion or contents. Furthermore, we
present Structure Guiding Sampling to maintain the global appearance across the
frames in a single video clip, where we leverage iterative latent updates
across the preceding frame. Additionally, our Prompt Generator allows for
arbitrary format of text conditions consisting of diverse events. As a result,
our extensive experiments, including diverse transitions of descriptions,
demonstrate that our proposed methods show superior generated outputs in terms
of semantically coherent and temporally seamless video.Video examples are
available in our project page: https://kuai-lab.github.io/mtvg-page.
- Abstract(参考訳): 近年,映像生成が注目され,顕著な結果が得られた。
映像の特徴について,次回の映像生成には逐次イベントを含むマルチテキストコンディショニングが必要である。
本研究では,事前学習した拡散に基づくテキスト・トゥ・ビデオ生成モデル(T2V)を直接利用して,新たなマルチテキストビデオ生成〜(MTVG)を提案する。
連続したビデオセグメントを生成するには、異なるプロンプトによって生成される視覚的一貫性が、動きやコンテンツ関連の遷移など様々なバリエーションで必要である。
提案するMTVGには、動的ノイズとLast Frame Aware Inversionが含まれており、異なるプロンプトのビデオ間の視覚的コヒーレンスを保ち、反復的な動きやコンテンツを防止するために、遅延音を再起動する。
さらに,単一のビデオクリップにおいて,フレーム全体にわたるグローバルな外観を維持するためにサンプリングを誘導する構造を提案する。
さらに、Prompt Generatorは、さまざまなイベントからなる任意の形式のテキスト条件を可能にする。
その結果、様々な記述の遷移を含む広範な実験により、提案手法は、意味的に一貫性があり、時間的にシームレスなビデオという観点から優れた出力を示すことが証明された。ビデオの例は、プロジェクトのページで利用可能である。
関連論文リスト
- Video-LaVIT: Unified Video-Language Pre-training with Decoupled
Visual-Motional Tokenization [53.92519123600325]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - VideoDrafter: Content-Consistent Multi-Scene Video Generation with LLM [97.09631253302987]
本稿では,コンテンツ一貫性のあるマルチシーンビデオ生成のための新しいフレームワークであるVideoDrafterを提案する。
VideoDrafterはLarge Language Models (LLM)を活用して、入力プロンプトを総合的なマルチシーンスクリプトに変換する。
VideoDrafterは、視覚的品質、コンテンツ整合性、ユーザの好みといった点で、SOTAビデオ生成モデルよりも優れています。
論文 参考訳(メタデータ) (2024-01-02T15:56:48Z) - VideoDreamer: Customized Multi-Subject Text-to-Video Generation with
Disen-Mix Finetuning [47.61090084143284]
VideoDreamerは、複数の被験者の視覚的特徴を忠実に保存する、時間的に一貫したテキスト誘導ビデオを生成することができる。
ビデオジェネレータは、提案されたDisen-Mix FinetuningとHuman-in-the-Loop Re-finetuning戦略により、与えられた複数の主題に対してさらにカスタマイズされる。
論文 参考訳(メタデータ) (2023-11-02T04:38:50Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z) - Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。
最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。
第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-07-13T17:57:13Z) - Gen-L-Video: Multi-Text to Long Video Generation via Temporal
Co-Denoising [43.35391175319815]
本研究では,複数テキスト条件付き長編ビデオの生成と編集にテキスト駆動能力を拡張する可能性について検討する。
我々は,市販のビデオ拡散モデルの拡張が可能なGen-L-Videoという新しいパラダイムを導入する。
実験結果から,本手法は映像拡散モデルの生成・編集能力を著しく拡張することが明らかとなった。
論文 参考訳(メタデータ) (2023-05-29T17:38:18Z) - Text-driven Video Prediction [83.04845684117835]
テキスト駆動型ビデオ予測(TVP)と呼ばれる新しいタスクを提案する。
本課題は,最初のフレームとテキストキャプションを入力として,以下のフレームを合成することを目的とする。
進行動作情報に対する因果推論におけるテキストの能力を調べるため、我々のTVPフレームワークはテキスト推論モジュール(TIM)を含む。
論文 参考訳(メタデータ) (2022-10-06T12:43:07Z) - Show Me What and Tell Me How: Video Synthesis via Multimodal
Conditioning [36.85533835408882]
本研究は,テキストと画像を共同あるいは別々に提供するマルチモーダルビデオ生成フレームワークを提案する。
本稿では,自己学習で訓練した新しいビデオトークンと,ビデオトークンをサンプリングするためのマスク予測アルゴリズムを提案する。
我々のフレームワークは、セグメンテーションマスク、描画、部分閉塞画像など、様々な視覚的モダリティを組み込むことができる。
論文 参考訳(メタデータ) (2022-03-04T21:09:13Z) - End-to-end Generative Pretraining for Multimodal Video Captioning [82.79187814057313]
本稿では,未学習ビデオから学習するための新しい事前学習フレームワークであるMV-GPTを提案する。
最近のビデオ言語事前学習フレームワークとは異なり、我々のフレームワークはマルチモーダルビデオエンコーダと文デコーダを共同で訓練する。
本モデルは,4つの標準ベンチマークによるマルチモーダルビデオキャプションの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-01-20T16:16:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。