論文の概要: Conditional MoCoGAN for Zero-Shot Video Generation
- arxiv url: http://arxiv.org/abs/2109.05864v1
- Date: Mon, 13 Sep 2021 11:05:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 15:33:52.378785
- Title: Conditional MoCoGAN for Zero-Shot Video Generation
- Title(参考訳): ゼロショット映像生成のための条件付きMoCoGAN
- Authors: Shun Kimura and Kazuhiko Kawamoto
- Abstract要約: ゼロショット映像生成のための条件付き生成逆ネットワーク(GAN)モデルを提案する。
鍵となる考え方は、GAN の潜在空間において非交叉表現を学ぶことである。
より良い距離のある表現を見つけ、高品質なビデオを生成するためのモデルを構築します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a conditional generative adversarial network (GAN) model for
zero-shot video generation. In this study, we have explored zero-shot
conditional generation setting. In other words, we generate unseen videos from
training samples with missing classes. The task is an extension of conditional
data generation. The key idea is to learn disentangled representations in the
latent space of a GAN. To realize this objective, we base our model on the
motion and content decomposed GAN and conditional GAN for image generation. We
build the model to find better-disentangled representations and to generate
good-quality videos. We demonstrate the effectiveness of our proposed model
through experiments on the Weizmann action database and the MUG facial
expression database.
- Abstract(参考訳): ゼロショット映像生成のための条件付き生成逆ネットワーク(GAN)モデルを提案する。
本研究では,ゼロショット条件生成設定について検討した。
言い換えれば、クラス不足のトレーニングサンプルから、目に見えないビデオを生成します。
このタスクは条件付きデータ生成の拡張である。
鍵となる考え方は、GAN の潜在空間における非絡み合い表現を学習することである。
この目的を達成するため、画像生成のためのGANと条件付きGANの動作と内容に基づくモデルを構築した。
より良い距離のある表現を見つけ、高品質なビデオを生成するためのモデルを構築します。
WeizmannアクションデータベースとMUG表情データベースの実験を通して,提案モデルの有効性を実証する。
関連論文リスト
- DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention and Text Guidance [69.0740091741732]
本研究では,DreamVideo という名前の事前学習ビデオ拡散モデルに基づくフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。
我々のモデルには強力な画像保持能力があり、我々の知る限り、他の画像-映像モデルと比較して、UCF101で最高の結果をもたらす。
論文 参考訳(メタデータ) (2023-12-05T03:16:31Z) - Ref-Diff: Zero-shot Referring Image Segmentation with Generative Models [68.73086826874733]
本稿では,画像分割を参照するための新しい参照拡散分割器(Referring Diffusional segmentor, Ref-Diff)を提案する。
提案生成器がなければ、生成モデルだけで既存のSOTAの弱教師付きモデルに匹敵する性能を達成できることを実証する。
このことは、生成モデルがこのタスクに有益であり、より優れたセグメンテーションを参照するために識別モデルを補完できることを示している。
論文 参考訳(メタデータ) (2023-08-31T14:55:30Z) - Diffused Heads: Diffusion Models Beat GANs on Talking-Face Generation [54.68893964373141]
顔の生成は、これまで、追加の参照ビデオからのガイダンスなしで、頭の動きや自然な表情を作り出すのに苦労してきた。
拡散に基づく生成モデルの最近の発展は、より現実的で安定したデータ合成を可能にする。
本稿では,現実的な人間の頭部の映像を生成するために,1つのアイデンティティ画像と音声シーケンスのみを必要とする自己回帰拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-01-06T14:16:54Z) - Facial Expression Video Generation Based-On Spatio-temporal
Convolutional GAN: FEV-GAN [1.279257604152629]
6つの基本表情の映像を生成するための新しいアプローチを提案する。
提案手法は,同一ネットワークにおけるコンテンツと動作の両方をモデル化することが知られている時空間的コナールGANをベースとしている。
コードと事前訓練されたモデルは間もなく公開される予定だ。
論文 参考訳(メタデータ) (2022-10-20T11:54:32Z) - REST: REtrieve & Self-Train for generative action recognition [54.90704746573636]
本稿では,ビデオ・アクション認識のための事前学習型生成ビジョン・アンド・ランゲージ(V&L)基礎モデルを提案する。
動作クラスを生成するための生成モデルの直接微調整は、過度な過度なオーバーフィッティングに苦しむことを示す。
2つの主要なコンポーネントからなるトレーニングフレームワークであるRESTを紹介します。
論文 参考訳(メタデータ) (2022-09-29T17:57:01Z) - Talking Head from Speech Audio using a Pre-trained Image Generator [5.659018934205065]
音声音声と1つの「同一性」画像から音声の高精細度映像を生成する手法を提案する。
我々は、各フレームをStyleGANの潜在空間の点としてモデル化し、ビデオが潜在空間の軌跡に対応するようにした。
我々は、音声発話から画像生成装置の潜時空間の変位へマッピングするために、繰り返しニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2022-09-09T11:20:37Z) - Video Diffusion Models [47.99413440461512]
時間的コヒーレントな高忠実度ビデオの生成は、生成モデリング研究において重要なマイルストーンである。
本稿では,ビデオ生成のための拡散モデルを提案する。
そこで本研究では,テキスト条件付きビデオ生成タスクにおける最初の結果と,未条件のビデオ生成ベンチマークにおける最新結果について述べる。
論文 参考訳(メタデータ) (2022-04-07T14:08:02Z) - Cluster-guided Image Synthesis with Unconditional Models [41.89334167530054]
本研究は、教師なし方式でよく訓練されたGANを活用することにより、制御可能な画像生成に焦点を当てる。
クラスタ割り当てを条件付けすることで、提案手法は生成された画像の意味クラスを制御することができる。
顔(CelebA-HQとFFHQ)、動物(Imagenet)、オブジェクト(LSUN)に対するアプローチの有効性を,異なる事前学習生成モデルを用いて示す。
論文 参考訳(メタデータ) (2021-12-24T02:18:34Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z) - VideoGPT: Video Generation using VQ-VAE and Transformers [75.20543171520565]
VideoGGは、自然ビデオへの可能性に基づく生成モデリングをスケールするための概念的にシンプルなアーキテクチャである。
VideoGはVQ-Eを用いて、3D畳み込みと軸自己アテンションを用いて、離散的潜伏表現を学習する。
我々のアーキテクチャは、b-101ロボットデータセット上でビデオ生成のための最先端ganモデルと競合するサンプルを生成することができる。
論文 参考訳(メタデータ) (2021-04-20T17:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。