論文の概要: One-Shot GAN: Learning to Generate Samples from Single Images and Videos
- arxiv url: http://arxiv.org/abs/2103.13389v1
- Date: Wed, 24 Mar 2021 17:59:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 14:11:02.735471
- Title: One-Shot GAN: Learning to Generate Samples from Single Images and Videos
- Title(参考訳): One-Shot GAN: 単一画像とビデオからサンプルを生成する学習
- Authors: Vadim Sushko, Juergen Gall, Anna Khoreva
- Abstract要約: 1つのトレーニング画像や1つのビデオクリップからサンプルを生成することを学ぶことができる無条件生成モデルであるOne-Shot GANを導入する。
従来のシングルイメージGANモデルと比較して、One-Shot GANは単一の画像設定に制限されることなく、より多様で高品質の画像を生成します。
- 参考スコア(独自算出の注目度): 32.131955417610655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given a large number of training samples, GANs can achieve remarkable
performance for the image synthesis task. However, training GANs in extremely
low-data regimes remains a challenge, as overfitting often occurs, leading to
memorization or training divergence. In this work, we introduce One-Shot GAN,
an unconditional generative model that can learn to generate samples from a
single training image or a single video clip. We propose a two-branch
discriminator architecture, with content and layout branches designed to judge
internal content and scene layout realism separately from each other. This
allows synthesis of visually plausible, novel compositions of a scene, with
varying content and layout, while preserving the context of the original
sample. Compared to previous single-image GAN models, One-Shot GAN generates
more diverse, higher quality images, while also not being restricted to a
single image setting. We show that our model successfully deals with other
one-shot regimes, and introduce a new task of learning generative models from a
single video.
- Abstract(参考訳): 多数のトレーニングサンプルが与えられた場合、ganは画像合成タスクにおいて顕著な性能を達成できる。
しかし、極めて低いデータ体制下でのGANのトレーニングは、過度に適合することが多く、記憶や訓練のばらつきにつながるため、依然として課題である。
本研究では,1つのトレーニング画像や1つのビデオクリップからサンプルを生成することを学習できる無条件生成モデルであるOne-Shot GANを紹介する。
本稿では、内部コンテンツとシーンレイアウトのリアリズムを別々に判断するために、コンテンツとレイアウトの分岐を持つ2分岐判別器アーキテクチャを提案する。
これにより、元のサンプルのコンテキストを保ちながら、内容やレイアウトの異なる、視覚的に可視で斬新なシーンの合成が可能になる。
以前のシングルイメージのGANモデルと比較すると、One-Shot GANはより多彩で高品質な画像を生成する一方で、単一の画像設定に制限されない。
このモデルが他のワンショットレジームとうまく対応できることを示し,1つのビデオから生成モデルを学ぶ新しいタスクを導入する。
関連論文リスト
- MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - SAMPLING: Scene-adaptive Hierarchical Multiplane Images Representation
for Novel View Synthesis from a Single Image [60.52991173059486]
単一画像からの新規ビュー合成のためのシーン適応型階層型多面体画像表現であるSAMPlingを紹介する。
提案手法は,KITTIデータセット上の単一画像を用いて,大規模非有界屋外シーンにおいてかなりの性能向上を示す。
論文 参考訳(メタデータ) (2023-09-12T15:33:09Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - StyleVideoGAN: A Temporal Generative Model using a Pretrained StyleGAN [70.31913835035206]
本稿では,映像合成問題に対する新しいアプローチを提案する。
トレーニング済みのStyleGANネットワークを利用することで、トレーニング対象の外観を制御できます。
我々の時間的アーキテクチャは、RGBフレームのシーケンスではなく、StyleGANの潜在符号のシーケンスに基づいて訓練される。
論文 参考訳(メタデータ) (2021-07-15T09:58:15Z) - Semantic Palette: Guiding Scene Generation with Class Proportions [34.746963256847145]
本稿では,シーン生成プロセスの指針として,クラス比率を効果的に許容する,新しいアーキテクチャ設計と学習目標を備えた条件付きフレームワークを提案する。
セマンティックコントロールにより、実際の分布に近いレイアウトを生成でき、シーン生成プロセス全体の拡張に役立つ。
実際のレイアウトとイメージのペアでトレーニングされたセグメンテーションセグメントは、実際のペアでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2021-06-03T07:04:00Z) - Learning to Generate Novel Scene Compositions from Single Images and
Videos [32.131955417610655]
One-Shot GANは、トレーニングセットから1つの画像または1つのビデオのサンプルを生成することを学ぶ。
本研究では,シーンレイアウトのリアリズムとは別個に内部コンテンツを判断するためのコンテンツとレイアウトブランチを備えた2分岐判別器を提案する。
論文 参考訳(メタデータ) (2021-05-12T17:59:45Z) - StEP: Style-based Encoder Pre-training for Multi-modal Image Synthesis [68.3787368024951]
マルチモーダルイメージ・ツー・イメージ(I2I)翻訳のための新しいアプローチを提案する。
我々は、出力領域の可変性をモデル化する潜伏埋め込みをジェネレータと共同で学習する。
具体的には、新しいプロキシタスクを用いて汎用的なスタイルエンコーダを事前訓練し、任意のドメインから低次元のスタイル潜在空間への画像の埋め込みを学習する。
論文 参考訳(メタデータ) (2021-04-14T19:58:24Z) - Unsupervised Novel View Synthesis from a Single Image [47.37120753568042]
単一の画像からの新しいビュー合成は、オブジェクトの単一入力画像から新しいビューを生成することを目的としている。
本研究の目的は、新しいビュー合成のための条件付き生成モデルの訓練を、完全に教師なしの方法で行えるようにすることで、この仮定を緩和することである。
論文 参考訳(メタデータ) (2021-02-05T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。