論文の概要: Gen-L-Video: Multi-Text to Long Video Generation via Temporal
Co-Denoising
- arxiv url: http://arxiv.org/abs/2305.18264v1
- Date: Mon, 29 May 2023 17:38:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 13:42:00.662752
- Title: Gen-L-Video: Multi-Text to Long Video Generation via Temporal
Co-Denoising
- Title(参考訳): gen-l-video:temporal co-denoisingによるマルチテキストからロングビデオ生成
- Authors: Fu-Yun Wang, Wenshuo Chen, Guanglu Song, Han-Jia Ye, Yu Liu, Hongsheng
Li
- Abstract要約: 本研究では,複数テキスト条件付き長編ビデオの生成と編集にテキスト駆動能力を拡張する可能性について検討する。
我々は,市販のビデオ拡散モデルの拡張が可能なGen-L-Videoという新しいパラダイムを導入する。
実験結果から,本手法は映像拡散モデルの生成・編集能力を著しく拡張することが明らかとなった。
- 参考スコア(独自算出の注目度): 43.35391175319815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leveraging large-scale image-text datasets and advancements in diffusion
models, text-driven generative models have made remarkable strides in the field
of image generation and editing. This study explores the potential of extending
the text-driven ability to the generation and editing of multi-text conditioned
long videos. Current methodologies for video generation and editing, while
innovative, are often confined to extremely short videos (typically less than
24 frames) and are limited to a single text condition. These constraints
significantly limit their applications given that real-world videos usually
consist of multiple segments, each bearing different semantic information. To
address this challenge, we introduce a novel paradigm dubbed as Gen-L-Video,
capable of extending off-the-shelf short video diffusion models for generating
and editing videos comprising hundreds of frames with diverse semantic segments
without introducing additional training, all while preserving content
consistency. We have implemented three mainstream text-driven video generation
and editing methodologies and extended them to accommodate longer videos imbued
with a variety of semantic segments with our proposed paradigm. Our
experimental outcomes reveal that our approach significantly broadens the
generative and editing capabilities of video diffusion models, offering new
possibilities for future research and applications. The code is available at
https://github.com/G-U-N/Gen-L-Video.
- Abstract(参考訳): 大規模画像テキストデータセットの活用と拡散モデルの進歩により、テキスト駆動生成モデルは画像生成と編集の分野で顕著な進歩を遂げた。
本研究では,複数テキスト条件付き長編ビデオの生成と編集にテキスト駆動能力を拡張する可能性を検討する。
ビデオ生成と編集の現在の手法は革新的ではあるが、しばしば非常に短いビデオ(通常24フレーム未満)に限られ、単一のテキスト条件に限定される。
これらの制約は、実世界のビデオは通常複数のセグメントから構成されており、それぞれが異なる意味情報を持っているため、アプリケーションに著しく制限を与える。
この課題に対処するために,我々は,多種多様なセマンティクスセグメントを有する数百のフレームからなる映像を,コンテンツの一貫性を維持しながら生成・編集するための,市販のショートビデオ拡散モデルを拡張できるgen-l-videoと呼ばれる新しいパラダイムを導入する。
我々は,テキスト駆動のビデオ生成と編集の手法を3つ実装し,提案するパラダイムにより,様々な意味セグメントを付与した長文ビデオに対応できるように拡張した。
実験結果から,本手法は映像拡散モデルの生成・編集能力を著しく拡張し,今後の研究・応用の可能性を示した。
コードはhttps://github.com/G-U-N/Gen-L-Videoで公開されている。
関連論文リスト
- Video-LaVIT: Unified Video-Language Pre-training with Decoupled
Visual-Motional Tokenization [53.92519123600325]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - MTVG : Multi-text Video Generation with Text-to-Video Models [18.06640097064693]
本稿では,事前学習した拡散型テキスト・ツー・ビデオ(T2V)生成モデルを用いて,新たなマルチテキスト・ビデオ生成(MTVG)を提案する。
提案手法は,セマンティック・コヒーレントかつ時間的にシームレスなビデオの観点で,優れた出力を示す。
論文 参考訳(メタデータ) (2023-12-07T06:53:25Z) - VideoDreamer: Customized Multi-Subject Text-to-Video Generation with
Disen-Mix Finetuning [47.61090084143284]
VideoDreamerは、複数の被験者の視覚的特徴を忠実に保存する、時間的に一貫したテキスト誘導ビデオを生成することができる。
ビデオジェネレータは、提案されたDisen-Mix FinetuningとHuman-in-the-Loop Re-finetuning戦略により、与えられた複数の主題に対してさらにカスタマイズされる。
論文 参考訳(メタデータ) (2023-11-02T04:38:50Z) - FreeNoise: Tuning-Free Longer Video Diffusion via Noise Rescheduling [85.60543452539076]
既存のビデオ生成モデルは、典型的には限られた数のフレームで訓練されており、推論中に高忠実度長ビデオを生成することができない。
本研究では,複数のテキストに条件付けされた長編ビデオを生成するためのテキスト駆動能力の拡張の可能性について検討する。
我々は,事前学習したビデオ拡散モデルの生成能力を高めるため,チューニング不要かつ時間効率のパラダイムであるFreeNoiseを提案する。
論文 参考訳(メタデータ) (2023-10-23T17:59:58Z) - VideoFactory: Swap Attention in Spatiotemporal Diffusions for
Text-to-Video Generation [57.98975319014234]
VideoFactoryはハイデフィニション(1376x768)、ワイドスクリーン(16:9)の動画を透かしなしで制作できる。
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z) - Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。
多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。
提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文 参考訳(メタデータ) (2023-04-15T06:17:30Z) - Open-book Video Captioning with Retrieve-Copy-Generate Network [42.374461018847114]
本稿では,従来のビデオキャプションタスクを新たなパラダイム,すなわちOpen-book Video Captioningに変換する。
本稿では,プラグイン可能なビデオ・テキスト検索システムを構築し,学習コーパスからのヒントとして文を効率的に検索するRetrieve-Copy-Generateネットワークを提案する。
本フレームワークは,従来の検索手法とオルソドックスエンコーダデコーダ法を協調して,検索した文中の多様な表現を描画するだけでなく,ビデオの自然な,正確な内容を生成する。
論文 参考訳(メタデータ) (2021-03-09T08:17:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。