Fugu-MT 論文翻訳(概要): Autoencoding Video Latents for Adversarial Video Generation

論文の概要: Autoencoding Video Latents for Adversarial Video Generation

arxiv url: http://arxiv.org/abs/2201.06888v1
Date: Tue, 18 Jan 2022 11:42:14 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-19 16:40:34.832250
Title: Autoencoding Video Latents for Adversarial Video Generation
Title（参考訳）: 敵対的映像生成のためのビデオラテントの自動エンコーディング
Authors: Sai Hemanth Kasaraneni
Abstract要約: AVLAEは2ストリームの遅延オートエンコーダであり、ビデオ配信は敵の訓練によって学習される。提案手法は, 発生器の明示的な構造構成を伴わずとも, 動きや外見の符号を乱すことを学習できることを実証する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Given the three dimensional complexity of a video signal, training a robust and diverse GAN based video generative model is onerous due to large stochasticity involved in data space. Learning disentangled representations of the data help to improve robustness and provide control in the sampling process. For video generation, there is a recent progress in this area by considering motion and appearance as orthogonal information and designing architectures that efficiently disentangle them. These approaches rely on handcrafting architectures that impose structural priors on the generator to decompose appearance and motion codes in the latent space. Inspired from the recent advancements in the autoencoder based image generation, we present AVLAE (Adversarial Video Latent AutoEncoder) which is a two stream latent autoencoder where the video distribution is learned by adversarial training. In particular, we propose to autoencode the motion and appearance latent vectors of the video generator in the adversarial setting. We demonstrate that our approach learns to disentangle motion and appearance codes even without the explicit structural composition in the generator. Several experiments with qualitative and quantitative results demonstrate the effectiveness of our method.
Abstract（参考訳）: ビデオ信号の3次元の複雑さを考えると、データ空間に関わる大きな確率性のため、堅牢で多様なganベースのビデオ生成モデルのトレーニングは面倒である。データの絡み合った表現を学習することは、ロバスト性を改善し、サンプリングプロセスの制御を提供するのに役立つ。映像生成では, 動きや外観を直交情報として考慮し, 効率的に切り離すアーキテクチャを設計することで, この分野の進歩が進んでいる。これらのアプローチは、潜伏空間における外見と運動符号を分解するためにジェネレータに構造上の優先順位を課す手作りアーキテクチャに依存している。近年のオートエンコーダベースの画像生成の進歩に触発されて,avlae (adversarial video latent autoencoder) という2つのストリーム型潜在オートエンコーダを提案する。特に,ビデオジェネレータの動作および出現遅延ベクトルを,対向的な設定で自動符号化する手法を提案する。提案手法は, 発生器の明示的な構造構成を伴わずとも, 動きや外見の符号を乱すことができることを示す。定性的および定量的な実験により,本手法の有効性が実証された。

関連論文リスト

Fast Autoregressive Video Generation with Diagonal Decoding [34.90521536645348]
DiagD (Diagonal Decoding) は、自己回帰事前学習モデルのためのトレーニング不要な推論高速化アルゴリズムである。本手法は,空間的時間的トークングリッド内の対角経路に沿ってトークンを生成し,各フレーム内で並列デコードを可能にする。 DiagDは、単純でシーケンシャルなデコーディングに比べて最大10倍のスピードアップを達成すると同時に、同等の視覚的忠実さを維持している。
論文参考訳（メタデータ） (2025-03-18T09:42:55Z)
Raccoon: Multi-stage Diffusion Training with Coarse-to-Fine Curating Videos [15.781862060265519]
CFC-VIDS-1Mは、体系的な粗いキュレーションパイプラインによって構築された高品質のビデオデータセットである。我々は、空間的時間的注意機構を分離したトランスフォーマーベースのアーキテクチャであるRACCOONを開発した。
論文参考訳（メタデータ） (2025-02-28T18:56:35Z)
Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文参考訳（メタデータ） (2024-11-23T12:26:52Z)
MotionAura: Generating High-Quality and Motion Consistent Videos using Discrete Diffusion [3.7270979204213446]
ビデオ処理の課題に対処するための4つの重要なコントリビューションを提示する。まず,3次元逆ベクトル量子化バリエンコエンコオートコーダを紹介する。次に,テキスト・ビデオ生成フレームワークであるMotionAuraを紹介する。第3に,スペクトル変換器を用いたデノナイジングネットワークを提案する。第4に,Sketch Guided Videopaintingのダウンストリームタスクを導入する。
論文参考訳（メタデータ） (2024-10-10T07:07:56Z)
Video Prediction Models as General Visual Encoders [0.0]
研究者らは、映像予測モデルを一般的な視覚エンコーダとして使用し、重要な空間的・時間的情報をキャプチャする能力を活用することを提案する。人間の視覚研究にインスパイアされたこの手法は、画像から動きを表す潜在空間を開発することを目的としている。実験には、事前訓練されたビデオ生成モデルの適用、潜伏空間の分析、フォアグラウンド・バックグラウンド・セグメンテーションのためのカスタムデコーダのトレーニングが含まれる。
論文参考訳（メタデータ） (2024-05-25T23:55:47Z)
MV2MAE: Multi-View Video Masked Autoencoders [33.61642891911761]
本稿では,同期型マルチビュービデオから自己教師付き学習を行う手法を提案する。モデルに幾何情報を注入するために、クロスビュー再構成タスクを使用する。我々のアプローチは、マスク付きオートエンコーダ(MAE)フレームワークに基づいている。
論文参考訳（メタデータ） (2024-01-29T05:58:23Z)
RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文参考訳（メタデータ） (2024-01-11T16:48:44Z)
StyleInV: A Temporal Style Modulated Inversion Network for Unconditional Video Generation [73.54398908446906]
本稿では,GANのための学習型反転ネットワークを用いた新しいモーションジェネレータの設計を提案する。本手法は,既訓練のStyleGANジェネレータとエンコーダをペアにした場合に,簡単な微調整でスタイル転送をサポートする。
論文参考訳（メタデータ） (2023-08-31T17:59:33Z)
Generating Videos with Dynamics-aware Implicit Generative Adversarial Networks [68.93429034530077]
ビデオ生成のための動的認識型暗黙的生成対向ネットワーク(DIGAN)を提案する。従来の48フレームよりも80フレーム長の解像度128×128の128フレームビデオで,DIGANをトレーニングできることが示されている。
論文参考訳（メタデータ） (2022-02-21T23:24:01Z)
A Good Image Generator Is What You Need for High-Resolution Video Synthesis [73.82857768949651]
現代画像生成装置を用いて高解像度映像のレンダリングを行うフレームワークを提案する。我々は,映像合成問題を,予め訓練された固定された画像生成装置の潜時空間における軌跡の発見とみなす。本稿では,コンテンツや動きが絡み合っている所望の軌跡を検出するモーションジェネレータを提案する。
論文参考訳（メタデータ） (2021-04-30T15:38:41Z)
Non-Adversarial Video Synthesis with Learned Priors [53.26777815740381]
我々は、参照入力フレームを使わずに、遅延雑音ベクトルからビデオを生成する問題に焦点をあてる。本研究では,入力潜時空間,繰り返しニューラルネットワークの重み付け,非対角学習によるジェネレータを協調的に最適化する手法を開発した。提案手法は,既存の最先端手法と比較して高品質なビデオを生成する。
論文参考訳（メタデータ） (2020-03-21T02:57:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。