論文の概要: Autoencoding Video Latents for Adversarial Video Generation
- arxiv url: http://arxiv.org/abs/2201.06888v1
- Date: Tue, 18 Jan 2022 11:42:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 16:40:34.832250
- Title: Autoencoding Video Latents for Adversarial Video Generation
- Title(参考訳): 敵対的映像生成のためのビデオラテントの自動エンコーディング
- Authors: Sai Hemanth Kasaraneni
- Abstract要約: AVLAEは2ストリームの遅延オートエンコーダであり、ビデオ配信は敵の訓練によって学習される。
提案手法は, 発生器の明示的な構造構成を伴わずとも, 動きや外見の符号を乱すことを学習できることを実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given the three dimensional complexity of a video signal, training a robust
and diverse GAN based video generative model is onerous due to large
stochasticity involved in data space. Learning disentangled representations of
the data help to improve robustness and provide control in the sampling
process. For video generation, there is a recent progress in this area by
considering motion and appearance as orthogonal information and designing
architectures that efficiently disentangle them. These approaches rely on
handcrafting architectures that impose structural priors on the generator to
decompose appearance and motion codes in the latent space. Inspired from the
recent advancements in the autoencoder based image generation, we present AVLAE
(Adversarial Video Latent AutoEncoder) which is a two stream latent autoencoder
where the video distribution is learned by adversarial training. In particular,
we propose to autoencode the motion and appearance latent vectors of the video
generator in the adversarial setting. We demonstrate that our approach learns
to disentangle motion and appearance codes even without the explicit structural
composition in the generator. Several experiments with qualitative and
quantitative results demonstrate the effectiveness of our method.
- Abstract(参考訳): ビデオ信号の3次元の複雑さを考えると、データ空間に関わる大きな確率性のため、堅牢で多様なganベースのビデオ生成モデルのトレーニングは面倒である。
データの絡み合った表現を学習することは、ロバスト性を改善し、サンプリングプロセスの制御を提供するのに役立つ。
映像生成では, 動きや外観を直交情報として考慮し, 効率的に切り離すアーキテクチャを設計することで, この分野の進歩が進んでいる。
これらのアプローチは、潜伏空間における外見と運動符号を分解するためにジェネレータに構造上の優先順位を課す手作りアーキテクチャに依存している。
近年のオートエンコーダベースの画像生成の進歩に触発されて,avlae (adversarial video latent autoencoder) という2つのストリーム型潜在オートエンコーダを提案する。
特に,ビデオジェネレータの動作および出現遅延ベクトルを,対向的な設定で自動符号化する手法を提案する。
提案手法は, 発生器の明示的な構造構成を伴わずとも, 動きや外見の符号を乱すことができることを示す。
定性的および定量的な実験により,本手法の有効性が実証された。
関連論文リスト
- Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。
ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。
提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-11-23T12:26:52Z) - MotionAura: Generating High-Quality and Motion Consistent Videos using Discrete Diffusion [3.7270979204213446]
ビデオ処理の課題に対処するための4つの重要なコントリビューションを提示する。
まず,3次元逆ベクトル量子化バリエンコエンコオートコーダを紹介する。
次に,テキスト・ビデオ生成フレームワークであるMotionAuraを紹介する。
第3に,スペクトル変換器を用いたデノナイジングネットワークを提案する。
第4に,Sketch Guided Videopaintingのダウンストリームタスクを導入する。
論文 参考訳(メタデータ) (2024-10-10T07:07:56Z) - Video Prediction Models as General Visual Encoders [0.0]
研究者らは、映像予測モデルを一般的な視覚エンコーダとして使用し、重要な空間的・時間的情報をキャプチャする能力を活用することを提案する。
人間の視覚研究にインスパイアされたこの手法は、画像から動きを表す潜在空間を開発することを目的としている。
実験には、事前訓練されたビデオ生成モデルの適用、潜伏空間の分析、フォアグラウンド・バックグラウンド・セグメンテーションのためのカスタムデコーダのトレーニングが含まれる。
論文 参考訳(メタデータ) (2024-05-25T23:55:47Z) - MV2MAE: Multi-View Video Masked Autoencoders [33.61642891911761]
本稿では,同期型マルチビュービデオから自己教師付き学習を行う手法を提案する。
モデルに幾何情報を注入するために、クロスビュー再構成タスクを使用する。
我々のアプローチは、マスク付きオートエンコーダ(MAE)フレームワークに基づいている。
論文 参考訳(メタデータ) (2024-01-29T05:58:23Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - StyleInV: A Temporal Style Modulated Inversion Network for Unconditional
Video Generation [73.54398908446906]
本稿では,GANのための学習型反転ネットワークを用いた新しいモーションジェネレータの設計を提案する。
本手法は,既訓練のStyleGANジェネレータとエンコーダをペアにした場合に,簡単な微調整でスタイル転送をサポートする。
論文 参考訳(メタデータ) (2023-08-31T17:59:33Z) - Generating Videos with Dynamics-aware Implicit Generative Adversarial
Networks [68.93429034530077]
ビデオ生成のための動的認識型暗黙的生成対向ネットワーク(DIGAN)を提案する。
従来の48フレームよりも80フレーム長の解像度128×128の128フレームビデオで,DIGANをトレーニングできることが示されている。
論文 参考訳(メタデータ) (2022-02-21T23:24:01Z) - A Good Image Generator Is What You Need for High-Resolution Video
Synthesis [73.82857768949651]
現代画像生成装置を用いて高解像度映像のレンダリングを行うフレームワークを提案する。
我々は,映像合成問題を,予め訓練された固定された画像生成装置の潜時空間における軌跡の発見とみなす。
本稿では,コンテンツや動きが絡み合っている所望の軌跡を検出するモーションジェネレータを提案する。
論文 参考訳(メタデータ) (2021-04-30T15:38:41Z) - Non-Adversarial Video Synthesis with Learned Priors [53.26777815740381]
我々は、参照入力フレームを使わずに、遅延雑音ベクトルからビデオを生成する問題に焦点をあてる。
本研究では,入力潜時空間,繰り返しニューラルネットワークの重み付け,非対角学習によるジェネレータを協調的に最適化する手法を開発した。
提案手法は,既存の最先端手法と比較して高品質なビデオを生成する。
論文 参考訳(メタデータ) (2020-03-21T02:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。