論文の概要: Unsupervised multi-modal Styled Content Generation
- arxiv url: http://arxiv.org/abs/2001.03640v2
- Date: Mon, 27 Apr 2020 07:14:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 23:39:33.872123
- Title: Unsupervised multi-modal Styled Content Generation
- Title(参考訳): 教師なしマルチモーダルスタイルコンテンツ生成
- Authors: Omry Sendik, Dani Lischinski, Daniel Cohen-Or
- Abstract要約: UMMGANは、教師なし方式でマルチモーダル分布をモデル化するために設計された新しいアーキテクチャである。
UMMGANはモードとスタイルを効果的に切り離し、生成したコンテンツに対して独立した制御を行うことができることを示す。
- 参考スコア(独自算出の注目度): 61.040392094140245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of deep generative models has recently enabled the automatic
generation of massive amounts of graphical content, both in 2D and in 3D.
Generative Adversarial Networks (GANs) and style control mechanisms, such as
Adaptive Instance Normalization (AdaIN), have proved particularly effective in
this context, culminating in the state-of-the-art StyleGAN architecture. While
such models are able to learn diverse distributions, provided a sufficiently
large training set, they are not well-suited for scenarios where the
distribution of the training data exhibits a multi-modal behavior. In such
cases, reshaping a uniform or normal distribution over the latent space into a
complex multi-modal distribution in the data domain is challenging, and the
generator might fail to sample the target distribution well. Furthermore,
existing unsupervised generative models are not able to control the mode of the
generated samples independently of the other visual attributes, despite the
fact that they are typically disentangled in the training data.
In this paper, we introduce UMMGAN, a novel architecture designed to better
model multi-modal distributions, in an unsupervised fashion. Building upon the
StyleGAN architecture, our network learns multiple modes, in a completely
unsupervised manner, and combines them using a set of learned weights. We
demonstrate that this approach is capable of effectively approximating a
complex distribution as a superposition of multiple simple ones. We further
show that UMMGAN effectively disentangles between modes and style, thereby
providing an independent degree of control over the generated content.
- Abstract(参考訳): 深層生成モデルの出現により、2Dと3Dの両方で大量のグラフィカルコンテンツを自動生成できるようになった。
GAN(Generative Adversarial Networks)と、Adaptive Instance Normalization (AdaIN)のようなスタイル制御機構は、この文脈で特に有効であることが証明され、最先端のStyleGANアーキテクチャが完成した。
このようなモデルは多様な分布を学習することができ、十分に大きなトレーニングセットを提供するが、トレーニングデータの分布がマルチモーダルな振る舞いを示すシナリオには適していない。
このような場合、潜在空間上の均一分布や正規分布をデータ領域内の複雑なマルチモーダル分布に変換することは困難であり、生成元はターゲット分布を適切にサンプリングできない可能性がある。
さらに、既存の教師なし生成モデルは、訓練データに通常絡まっていないにもかかわらず、他の視覚特性とは独立して生成されたサンプルのモードを制御することができない。
本稿では,マルチモーダル分布のモデル化を目的とした新しいアーキテクチャであるUMMGANについて,教師なし方式で紹介する。
styleganアーキテクチャに基づいて、ネットワークは完全に教師なしの方法で複数のモードを学習し、それらを一連の学習重みを使って組み合わせます。
このアプローチは、複数の単純分布の重ね合わせとして複素分布を効果的に近似できることを示す。
さらに、UMMGANは、モードとスタイルを効果的に切り離すことで、生成されたコンテンツに対して独立した制御を行うことができることを示す。
関連論文リスト
- Aggregation of Multi Diffusion Models for Enhancing Learned Representations [4.126721111013567]
本稿では, Aggregation of Multi Diffusion Models (AMDM) を提案する。
AMDMは、複数の拡散モデルから特定のモデルに特徴を合成し、学習された表現を拡張して、きめ細かい制御のために特定の特徴を活性化する。
実験の結果,AMDMはトレーニング時間や推論時間を必要とせず,微粒化制御を著しく改善することがわかった。
論文 参考訳(メタデータ) (2024-10-02T06:16:06Z) - Diffusion Models For Multi-Modal Generative Modeling [32.61765315067488]
本稿では,共通拡散空間における統一多モード拡散モデルを構築することにより,拡散モデルを定義するための原理的手法を提案する。
本稿では,画像遷移,マスクイメージトレーニング,共同画像ラベル,共同画像表現生成モデリングなどのフレームワークを検証するために,複数のマルチモーダル生成設定を提案する。
論文 参考訳(メタデータ) (2024-07-24T18:04:17Z) - Decentralized Transformers with Centralized Aggregation are Sample-Efficient Multi-Agent World Models [106.94827590977337]
本稿では,分散化された局所力学を拡張性のために学習するマルチエージェントRL(MARL)の新たな世界モデルを提案する。
また、集中表現アグリゲーションを可能にする効果的なソリューションとしてPerceiver Transformerを導入する。
Starcraft Multi-Agent Challenge (SMAC) の結果は、サンプル効率と全体的な性能の両方において、強力なモデルフリーアプローチと既存のモデルベース手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-06-22T12:40:03Z) - Training Implicit Generative Models via an Invariant Statistical Loss [3.139474253994318]
暗黙的な生成モデルは任意の複雑なデータ分布を学習する能力を持つ。
マイナス面として、トレーニングでは、敵対的判別器を使用して人工的に生成されたデータと実際のデータを区別する必要がある。
本研究では,1次元(1次元)生成暗黙的モデルを学習するための判別器フリーな手法を開発した。
論文 参考訳(メタデータ) (2024-02-26T09:32:28Z) - Phasic Content Fusing Diffusion Model with Directional Distribution
Consistency for Few-Shot Model Adaption [73.98706049140098]
本稿では,方向分布の整合性を損なう少数ショット拡散モデルを用いた新しいファシックコンテンツを提案する。
具体的には、ファシックコンテンツ融合を用いたファシックトレーニング戦略を設計し、tが大きければ、モデルがコンテンツやスタイル情報を学ぶのに役立てる。
最後に、ドメイン適応時の構造整合性を高めるクロスドメイン構造ガイダンス戦略を提案する。
論文 参考訳(メタデータ) (2023-09-07T14:14:11Z) - Improving Out-of-Distribution Robustness of Classifiers via Generative
Interpolation [56.620403243640396]
ディープニューラルネットワークは、独立かつ同一に分散されたデータ(すなわち、d)から学習する上で、優れたパフォーマンスを達成する。
しかし、アウト・オブ・ディストリビューション(OoD)データを扱う場合、その性能は著しく低下する。
多様なOoDサンプルを合成するために,複数のドメインから学習した生成モデルを融合するための生成補間法(Generative Interpolation)を開発した。
論文 参考訳(メタデータ) (2023-07-23T03:53:53Z) - Style-Hallucinated Dual Consistency Learning: A Unified Framework for
Visual Domain Generalization [113.03189252044773]
本稿では,様々な視覚的タスクにおけるドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning (SHADE)を提案する。
我々の汎用SHADEは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、様々な視覚認識タスクにおける一般化を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-12-18T11:42:51Z) - Can Push-forward Generative Models Fit Multimodal Distributions? [3.8615905456206256]
生成ネットワークのリプシッツ定数はマルチモーダル分布に適合するために大きくなければならないことを示す。
本研究では,1次元および画像のデータセットを用いて,各ステップで入力されたスタックネットワークからなる生成モデルがそのような制約を負わないことを実証的に検証した。
論文 参考訳(メタデータ) (2022-06-29T09:03:30Z) - Learning more expressive joint distributions in multimodal variational
methods [0.17188280334580194]
正規化フローを用いたマルチモーダル変分法の表現能力を向上させる手法を提案する。
このモデルは,様々なコンピュータビジョンタスクの変動推論に基づいて,最先端のマルチモーダル手法を改善することを実証する。
また, より強力な近似関節分布の学習により, 生成した試料の品質が向上することを示した。
論文 参考訳(メタデータ) (2020-09-08T11:45:27Z) - S2RMs: Spatially Structured Recurrent Modules [105.0377129434636]
モジュール構造とテンポラル構造の両方を同時に活用できる動的構造を利用するための一歩を踏み出します。
我々のモデルは利用可能なビューの数に対して堅牢であり、追加のトレーニングなしで新しいタスクに一般化できる。
論文 参考訳(メタデータ) (2020-07-13T17:44:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。