論文の概要: Generating Novel Scene Compositions from Single Images and Videos
- arxiv url: http://arxiv.org/abs/2103.13389v5
- Date: Wed, 13 Dec 2023 13:44:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 21:34:59.170917
- Title: Generating Novel Scene Compositions from Single Images and Videos
- Title(参考訳): 単一画像と映像から新しいシーン構成を生成する
- Authors: Vadim Sushko, Dan Zhang, Juergen Gall, Anna Khoreva
- Abstract要約: SIV-GANは,1つのトレーニング画像や1つのビデオクリップから新たなシーン合成を生成できる無条件生成モデルである。
従来の単一画像 GAN と比較すると,より多彩で高品質な画像を生成する一方で,単一の画像設定に制限されない。
- 参考スコア(独自算出の注目度): 21.92417902229955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given a large dataset for training, generative adversarial networks (GANs)
can achieve remarkable performance for the image synthesis task. However,
training GANs in extremely low data regimes remains a challenge, as overfitting
often occurs, leading to memorization or training divergence. In this work, we
introduce SIV-GAN, an unconditional generative model that can generate new
scene compositions from a single training image or a single video clip. We
propose a two-branch discriminator architecture, with content and layout
branches designed to judge internal content and scene layout realism separately
from each other. This discriminator design enables synthesis of visually
plausible, novel compositions of a scene, with varying content and layout,
while preserving the context of the original sample. Compared to previous
single image GANs, our model generates more diverse, higher quality images,
while not being restricted to a single image setting. We further introduce a
new challenging task of learning from a few frames of a single video. In this
training setup the training images are highly similar to each other, which
makes it difficult for prior GAN models to achieve a synthesis of both high
quality and diversity.
- Abstract(参考訳): 訓練のための大きなデータセットが与えられると、生成逆ネットワーク(gans)は画像合成タスクにおいて顕著な性能を達成できる。
しかし、非常に低いデータ体制でのGANのトレーニングは、過度な適合が頻繁に発生し、記憶や訓練のばらつきにつながるため、依然として課題である。
本稿では,siv-ganについて紹介する。siv-ganは無条件生成モデルであり,単一のトレーニング画像やビデオクリップから新たなシーン構成を生成することができる。
本稿では、内部コンテンツとシーンレイアウトのリアリズムを別々に判断するために、コンテンツとレイアウトの分岐を持つ2分岐判別器アーキテクチャを提案する。
この識別器設計により、元のサンプルのコンテキストを保ちながら、内容やレイアウトの異なるシーンの視覚的に可視で斬新な構成を合成することができる。
従来の単一画像 GAN と比較すると,より多彩で高品質な画像を生成する一方で,単一の画像設定に制限されない。
さらに、単一のビデオのいくつかのフレームから学習する上で、新たな課題を導入する。
このトレーニング設定では、トレーニング画像は互いに非常によく似ており、従来のGANモデルでは高品質と多様性の両方を合成することが困難である。
関連論文リスト
- MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - SAMPLING: Scene-adaptive Hierarchical Multiplane Images Representation
for Novel View Synthesis from a Single Image [60.52991173059486]
単一画像からの新規ビュー合成のためのシーン適応型階層型多面体画像表現であるSAMPlingを紹介する。
提案手法は,KITTIデータセット上の単一画像を用いて,大規模非有界屋外シーンにおいてかなりの性能向上を示す。
論文 参考訳(メタデータ) (2023-09-12T15:33:09Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - StyleVideoGAN: A Temporal Generative Model using a Pretrained StyleGAN [70.31913835035206]
本稿では,映像合成問題に対する新しいアプローチを提案する。
トレーニング済みのStyleGANネットワークを利用することで、トレーニング対象の外観を制御できます。
我々の時間的アーキテクチャは、RGBフレームのシーケンスではなく、StyleGANの潜在符号のシーケンスに基づいて訓練される。
論文 参考訳(メタデータ) (2021-07-15T09:58:15Z) - Semantic Palette: Guiding Scene Generation with Class Proportions [34.746963256847145]
本稿では,シーン生成プロセスの指針として,クラス比率を効果的に許容する,新しいアーキテクチャ設計と学習目標を備えた条件付きフレームワークを提案する。
セマンティックコントロールにより、実際の分布に近いレイアウトを生成でき、シーン生成プロセス全体の拡張に役立つ。
実際のレイアウトとイメージのペアでトレーニングされたセグメンテーションセグメントは、実際のペアでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2021-06-03T07:04:00Z) - Learning to Generate Novel Scene Compositions from Single Images and
Videos [32.131955417610655]
One-Shot GANは、トレーニングセットから1つの画像または1つのビデオのサンプルを生成することを学ぶ。
本研究では,シーンレイアウトのリアリズムとは別個に内部コンテンツを判断するためのコンテンツとレイアウトブランチを備えた2分岐判別器を提案する。
論文 参考訳(メタデータ) (2021-05-12T17:59:45Z) - StEP: Style-based Encoder Pre-training for Multi-modal Image Synthesis [68.3787368024951]
マルチモーダルイメージ・ツー・イメージ(I2I)翻訳のための新しいアプローチを提案する。
我々は、出力領域の可変性をモデル化する潜伏埋め込みをジェネレータと共同で学習する。
具体的には、新しいプロキシタスクを用いて汎用的なスタイルエンコーダを事前訓練し、任意のドメインから低次元のスタイル潜在空間への画像の埋め込みを学習する。
論文 参考訳(メタデータ) (2021-04-14T19:58:24Z) - Unsupervised Novel View Synthesis from a Single Image [47.37120753568042]
単一の画像からの新しいビュー合成は、オブジェクトの単一入力画像から新しいビューを生成することを目的としている。
本研究の目的は、新しいビュー合成のための条件付き生成モデルの訓練を、完全に教師なしの方法で行えるようにすることで、この仮定を緩和することである。
論文 参考訳(メタデータ) (2021-02-05T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。