論文の概要: Autoencoding Video Latents for Adversarial Video Generation
- arxiv url: http://arxiv.org/abs/2201.06888v1
- Date: Tue, 18 Jan 2022 11:42:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 16:40:34.832250
- Title: Autoencoding Video Latents for Adversarial Video Generation
- Title(参考訳): 敵対的映像生成のためのビデオラテントの自動エンコーディング
- Authors: Sai Hemanth Kasaraneni
- Abstract要約: AVLAEは2ストリームの遅延オートエンコーダであり、ビデオ配信は敵の訓練によって学習される。
提案手法は, 発生器の明示的な構造構成を伴わずとも, 動きや外見の符号を乱すことを学習できることを実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given the three dimensional complexity of a video signal, training a robust
and diverse GAN based video generative model is onerous due to large
stochasticity involved in data space. Learning disentangled representations of
the data help to improve robustness and provide control in the sampling
process. For video generation, there is a recent progress in this area by
considering motion and appearance as orthogonal information and designing
architectures that efficiently disentangle them. These approaches rely on
handcrafting architectures that impose structural priors on the generator to
decompose appearance and motion codes in the latent space. Inspired from the
recent advancements in the autoencoder based image generation, we present AVLAE
(Adversarial Video Latent AutoEncoder) which is a two stream latent autoencoder
where the video distribution is learned by adversarial training. In particular,
we propose to autoencode the motion and appearance latent vectors of the video
generator in the adversarial setting. We demonstrate that our approach learns
to disentangle motion and appearance codes even without the explicit structural
composition in the generator. Several experiments with qualitative and
quantitative results demonstrate the effectiveness of our method.
- Abstract(参考訳): ビデオ信号の3次元の複雑さを考えると、データ空間に関わる大きな確率性のため、堅牢で多様なganベースのビデオ生成モデルのトレーニングは面倒である。
データの絡み合った表現を学習することは、ロバスト性を改善し、サンプリングプロセスの制御を提供するのに役立つ。
映像生成では, 動きや外観を直交情報として考慮し, 効率的に切り離すアーキテクチャを設計することで, この分野の進歩が進んでいる。
これらのアプローチは、潜伏空間における外見と運動符号を分解するためにジェネレータに構造上の優先順位を課す手作りアーキテクチャに依存している。
近年のオートエンコーダベースの画像生成の進歩に触発されて,avlae (adversarial video latent autoencoder) という2つのストリーム型潜在オートエンコーダを提案する。
特に,ビデオジェネレータの動作および出現遅延ベクトルを,対向的な設定で自動符号化する手法を提案する。
提案手法は, 発生器の明示的な構造構成を伴わずとも, 動きや外見の符号を乱すことができることを示す。
定性的および定量的な実験により,本手法の有効性が実証された。
関連論文リスト
- MV2MAE: Multi-View Video Masked Autoencoders [33.61642891911761]
本稿では,同期型マルチビュービデオから自己教師付き学習を行う手法を提案する。
モデルに幾何情報を注入するために、クロスビュー再構成タスクを使用する。
我々のアプローチは、マスク付きオートエンコーダ(MAE)フレームワークに基づいている。
論文 参考訳(メタデータ) (2024-01-29T05:58:23Z) - Conditional Generative Modeling for Images, 3D Animations, and Video [4.422441608136163]
コンピュータビジョンのための生成モデリングの分野における革新を推進しようとする論文。
研究は、ノイズと視覚データの変換を提供するアーキテクチャと、生成タスクや3Dコンテンツ操作にエンコーダ・デコーダアーキテクチャを適用することに焦点を当てている。
論文 参考訳(メタデータ) (2023-10-19T21:10:39Z) - StyleInV: A Temporal Style Modulated Inversion Network for Unconditional
Video Generation [73.54398908446906]
本稿では,GANのための学習型反転ネットワークを用いた新しいモーションジェネレータの設計を提案する。
本手法は,既訓練のStyleGANジェネレータとエンコーダをペアにした場合に,簡単な微調整でスタイル転送をサポートする。
論文 参考訳(メタデータ) (2023-08-31T17:59:33Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Generating Videos with Dynamics-aware Implicit Generative Adversarial
Networks [68.93429034530077]
ビデオ生成のための動的認識型暗黙的生成対向ネットワーク(DIGAN)を提案する。
従来の48フレームよりも80フレーム長の解像度128×128の128フレームビデオで,DIGANをトレーニングできることが示されている。
論文 参考訳(メタデータ) (2022-02-21T23:24:01Z) - A Good Image Generator Is What You Need for High-Resolution Video
Synthesis [73.82857768949651]
現代画像生成装置を用いて高解像度映像のレンダリングを行うフレームワークを提案する。
我々は,映像合成問題を,予め訓練された固定された画像生成装置の潜時空間における軌跡の発見とみなす。
本稿では,コンテンツや動きが絡み合っている所望の軌跡を検出するモーションジェネレータを提案する。
論文 参考訳(メタデータ) (2021-04-30T15:38:41Z) - Non-Adversarial Video Synthesis with Learned Priors [53.26777815740381]
我々は、参照入力フレームを使わずに、遅延雑音ベクトルからビデオを生成する問題に焦点をあてる。
本研究では,入力潜時空間,繰り返しニューラルネットワークの重み付け,非対角学習によるジェネレータを協調的に最適化する手法を開発した。
提案手法は,既存の最先端手法と比較して高品質なビデオを生成する。
論文 参考訳(メタデータ) (2020-03-21T02:57:33Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。