論文の概要: Inference-based GAN Video Generation
- arxiv url: http://arxiv.org/abs/2512.21776v2
- Date: Wed, 31 Dec 2025 10:52:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 15:47:54.39602
- Title: Inference-based GAN Video Generation
- Title(参考訳): 推論に基づくGANビデオ生成
- Authors: Jingbo Yang, Adrian G. Bors,
- Abstract要約: 可変エンコーダを用いた対向型非条件ビデオジェネレータの実現により,新しいタイプのビデオジェネレータを提案する。
既存のモデルは、生成されたビデオの時間的スケーリングに苦労する。
私たちは、数百から数千のフレームからなる長いビデオを生成するために、新しい、メモリ効率のアプローチを採用しています。
- 参考スコア(独自算出の注目度): 47.53991869205973
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video generation has seen remarkable progress thanks to advancements in generative deep learning. However, generating long sequences remains a significant challenge. Generated videos should not only display coherent and continuous movement but also meaningful movement in successions of scenes. Models such as GANs, VAEs, and Diffusion Networks have been used for generating short video sequences, typically up to 16 frames. In this paper, we first propose a new type of video generator by enabling adversarial-based unconditional video generators with a variational encoder, akin to a VAE-GAN hybrid structure. The proposed model, as in other video deep learning-based processing frameworks, incorporates two processing branches, one for content and another for movement. However, existing models struggle with the temporal scaling of the generated videos. Classical approaches often result in degraded video quality when attempting to increase the generated video length, especially for significantly long sequences. To overcome this limitation, our research study extends the initially proposed VAE-GAN video generation model by employing a novel, memory-efficient approach to generate long videos composed of hundreds or thousands of frames ensuring their temporal continuity, consistency and dynamics. Our approach leverages a Markov chain framework with a recall mechanism, where each state represents a short-length VAE-GAN video generator. This setup enables the sequential connection of generated video sub-sequences, maintaining temporal dependencies and resulting in meaningful long video sequences.
- Abstract(参考訳): ビデオ生成は、生成的深層学習の進歩により、目覚ましい進歩を遂げている。
しかし、長いシーケンスを生成することは大きな課題である。
生成したビデオは、一貫性のある連続的な動きだけでなく、シーンの連続における意味のある動きも表示すべきである。
GAN、VAE、Diffusion Networksなどのモデルは、通常16フレームまでの短いビデオシーケンスを生成するために使われてきた。
本稿では,VAE-GANハイブリッド構造に類似した変分エンコーダを用いた対向型非条件ビデオジェネレータの実現により,新しいタイプのビデオジェネレータを提案する。
提案モデルは、他のビデオ深層学習ベースの処理フレームワークと同様に、コンテンツ用と移動用という2つの処理ブランチを組み込んでいる。
しかし、既存のモデルは生成されたビデオの時間的スケーリングに苦慮している。
古典的なアプローチでは、特に非常に長いシーケンスにおいて、生成されたビデオの長さを増大させようとするときに、画質が劣化することがある。
この制限を克服するため,本稿では,時間的連続性,一貫性,ダイナミック性を確保するために,数百フレームから数千フレームからなる長ビデオを生成するための,メモリ効率の高い新しい手法を用いて,当初提案されていたVAE-GANビデオ生成モデルを拡張した。
提案手法では,各状態が短いVAE-GANビデオジェネレータを表すリコール機構を備えたマルコフ連鎖フレームワークを利用する。
このセットアップは、生成されたビデオサブシーケンスのシーケンシャルな接続を可能にし、時間的依存関係を維持し、意味のある長いビデオシーケンスを生成する。
関連論文リスト
- SemanticGen: Video Generation in Semantic Space [60.49729308406981]
最先端のビデオ生成モデルは、通常、VAE空間内のビデオ潜像の分布を学習し、VAEデコーダを使用してピクセルにマッピングする。
我々はセマンティックGenを紹介した。セマンティックGenはセマンティックな空間でビデオを生成する新しいソリューションだ。
提案手法は,長大なビデオ生成に拡張した場合にも有効であり,計算的にも効率的である。
論文 参考訳(メタデータ) (2025-12-23T18:59:56Z) - Anchored Diffusion for Video Face Reenactment [17.343307538702238]
比較的長くシームレスなビデオを合成するための新しい手法であるAnchored Diffusionを紹介する。
我々は、ランダムな非一様時間間隔でビデオシーケンスでモデルを訓練し、外部ガイダンスを介して時間情報を組み込む。
推論の際には、トランスフォーマーアーキテクチャを利用して拡散プロセスを修正し、共通のフレームに固定された一様でないシーケンスのバッチを生成する。
論文 参考訳(メタデータ) (2024-07-21T13:14:17Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Generating Videos with Dynamics-aware Implicit Generative Adversarial
Networks [68.93429034530077]
ビデオ生成のための動的認識型暗黙的生成対向ネットワーク(DIGAN)を提案する。
従来の48フレームよりも80フレーム長の解像度128×128の128フレームビデオで,DIGANをトレーニングできることが示されている。
論文 参考訳(メタデータ) (2022-02-21T23:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。