論文の概要: GLOBER: Coherent Non-autoregressive Video Generation via GLOBal Guided
Video DecodER
- arxiv url: http://arxiv.org/abs/2309.13274v1
- Date: Sat, 23 Sep 2023 06:04:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 20:51:56.549493
- Title: GLOBER: Coherent Non-autoregressive Video Generation via GLOBal Guided
Video DecodER
- Title(参考訳): GLOBER: GLOBal Guided Video Decoderによるコヒーレントな非自己回帰ビデオ生成
- Authors: Mingzhen Sun, Weining Wang, Zihan Qin, Jiahui Sun, Sihan Chen, Jing
Liu
- Abstract要約: GLOBER法は包括的グローバルガイダンスを得るためにグローバルな特徴を生成する。
ビデオ自動エンコーダはビデオをグローバルな機能にエンコードし、拡散モデル上に構築されたビデオデコーダはグローバルな機能をデコードする。
複数のベンチマークで最新の結果が得られた。
- 参考スコア(独自算出の注目度): 11.729547308458272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video generation necessitates both global coherence and local realism. This
work presents a novel non-autoregressive method GLOBER, which first generates
global features to obtain comprehensive global guidance and then synthesizes
video frames based on the global features to generate coherent videos.
Specifically, we propose a video auto-encoder, where a video encoder encodes
videos into global features, and a video decoder, built on a diffusion model,
decodes the global features and synthesizes video frames in a
non-autoregressive manner. To achieve maximum flexibility, our video decoder
perceives temporal information through normalized frame indexes, which enables
it to synthesize arbitrary sub video clips with predetermined starting and
ending frame indexes. Moreover, a novel adversarial loss is introduced to
improve the global coherence and local realism between the synthesized video
frames. Finally, we employ a diffusion-based video generator to fit the global
features outputted by the video encoder for video generation. Extensive
experimental results demonstrate the effectiveness and efficiency of our
proposed method, and new state-of-the-art results have been achieved on
multiple benchmarks.
- Abstract(参考訳): ビデオ生成は、グローバルコヒーレンスとローカルリアリズムの両方を必要とする。
本研究は、まずグローバルな特徴を生成して包括的なグローバルガイダンスを得るとともに、グローバルな特徴に基づいてビデオフレームを合成してコヒーレントなビデオを生成する、新しい非自己回帰手法GLOBERを提案する。
具体的には,ビデオエンコーダが映像をグローバルな特徴にエンコードするビデオオートエンコーダと,拡散モデル上に構築され,グローバルな特徴をデコードし,ビデオフレームを非自己回帰的に合成するビデオデコーダを提案する。
最大柔軟性を達成するため,ビデオデコーダはフレームインデックスの正規化により時間情報を知覚し,任意のサブビデオクリップを所定の開始と終了のフレームインデックスで合成することができる。
さらに、合成ビデオフレーム間のグローバルコヒーレンスと局所リアリズムを改善するために、新たな対向損失を導入する。
最後に,ビデオエンコーダが出力するグローバル機能をビデオ生成に適合させるために拡散型ビデオジェネレータを用いる。
実験により,提案手法の有効性と有効性が実証され,複数のベンチマークで最新の結果が得られた。
関連論文リスト
- Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。
ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。
提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-11-23T12:26:52Z) - VideoGPT+: Integrating Image and Video Encoders for Enhanced Video Understanding [15.959757105308238]
ビデオLMMは、視覚入力を処理するために、画像エンコーダまたはビデオエンコーダに依存しており、それぞれに独自の制限がある。
本稿では,映像エンコーダと映像エンコーダの相補的利点(大域的時間文脈モデリング)を組み合わせたビデオGPT+を紹介する。
本稿では,VCGBench,MVBench,Zero-shotなど,複数のビデオベンチマークのパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2024-06-13T17:59:59Z) - Hybrid Video Diffusion Models with 2D Triplane and 3D Wavelet Representation [35.52770785430601]
複雑な依存関係をより効率的にキャプチャできるHVtemporalDMというハイブリッドビデオオートエンコーダを提案する。
HVDMは、ビデオの歪んだ表現を抽出するハイブリッドビデオオートエンコーダによって訓練される。
当社のハイブリッドオートエンコーダは、生成されたビデオに詳細な構造と詳細を付加した、より包括的なビデオラテントを提供します。
論文 参考訳(メタデータ) (2024-02-21T11:46:16Z) - Lumiere: A Space-Time Diffusion Model for Video Generation [75.54967294846686]
本研究では,一度にビデオ全体の時間的持続時間を生成する空間時間U-Netアーキテクチャを提案する。
これは、遠方から後続の時間超解像を合成する既存のビデオモデルとは対照的である。
空間的および(重要な)時間的ダウンサンプリングとアップサンプリングの両方をデプロイすることで、我々のモデルは、フルフレームレートで低解像度のビデオを直接生成することを学ぶ。
論文 参考訳(メタデータ) (2024-01-23T18:05:25Z) - VideoGen: A Reference-Guided Latent Diffusion Approach for High
Definition Text-to-Video Generation [73.54366331493007]
VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。
我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
論文 参考訳(メタデータ) (2023-09-01T11:14:43Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - Sketching the Future (STF): Applying Conditional Control Techniques to
Text-to-Video Models [0.0]
ゼロショットテキスト・ビデオ・ジェネレーションとコントロールネットを組み合わせることで,これらのモデルの出力を改善する手法を提案する。
提案手法は,複数のスケッチフレームを入力として,これらのフレームの流れにマッチした映像出力を生成する。
論文 参考訳(メタデータ) (2023-05-10T02:33:25Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z) - Vid-ODE: Continuous-Time Video Generation with Neural Ordinary
Differential Equation [42.85126020237214]
本稿では,ニューラルODE(Vid-ODE)と画素レベルの画像処理技術を組み合わせた連続時間ビデオ生成を提案する。
Vid-ODEは、現実世界のビデオを使った連続的なビデオ生成を成功させた最初の作品である。
論文 参考訳(メタデータ) (2020-10-16T06:50:47Z) - Unsupervised Multimodal Video-to-Video Translation via Self-Supervised
Learning [92.17835753226333]
本稿では,教師なしビデオ間翻訳モデルを提案する。
本モデルは,特殊なUVデコーダ構造を用いて,そのスタイルと内容を分解する。
我々のモデルは、マルチモーダルな方法で写真リアリスティックなビデオを作成することができる。
論文 参考訳(メタデータ) (2020-04-14T13:44:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。