論文の概要: High-Fidelity Synthesis with Disentangled Representation
- arxiv url: http://arxiv.org/abs/2001.04296v1
- Date: Mon, 13 Jan 2020 14:39:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 23:43:46.106990
- Title: High-Fidelity Synthesis with Disentangled Representation
- Title(参考訳): アンタングル表現を用いた高忠実合成
- Authors: Wonkwang Lee, Donggyun Kim, Seunghoon Hong, Honglak Lee
- Abstract要約: 本稿では,不整合学習と高忠実度合成のためのID-GAN(Information-Distillation Generative Adrial Network)を提案する。
提案手法は, VAEモデルを用いて非交叉表現を学習し, 高忠実度合成のためのGAN生成器に追加のニュアンス変数で学習表現を蒸留する。
単純さにもかかわらず,提案手法は高効率であり,不整合表現を用いた最先端の手法に匹敵する画像生成品質を実現する。
- 参考スコア(独自算出の注目度): 60.19657080953252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning disentangled representation of data without supervision is an
important step towards improving the interpretability of generative models.
Despite recent advances in disentangled representation learning, existing
approaches often suffer from the trade-off between representation learning and
generation performance i.e. improving generation quality sacrifices
disentanglement performance). We propose an Information-Distillation Generative
Adversarial Network (ID-GAN), a simple yet generic framework that easily
incorporates the existing state-of-the-art models for both disentanglement
learning and high-fidelity synthesis. Our method learns disentangled
representation using VAE-based models, and distills the learned representation
with an additional nuisance variable to the separate GAN-based generator for
high-fidelity synthesis. To ensure that both generative models are aligned to
render the same generative factors, we further constrain the GAN generator to
maximize the mutual information between the learned latent code and the output.
Despite the simplicity, we show that the proposed method is highly effective,
achieving comparable image generation quality to the state-of-the-art methods
using the disentangled representation. We also show that the proposed
decomposition leads to an efficient and stable model design, and we demonstrate
photo-realistic high-resolution image synthesis results (1024x1024 pixels) for
the first time using the disentangled representations.
- Abstract(参考訳): 教師なしでデータの絡み合った表現を学ぶことは、生成モデルの解釈可能性を改善するための重要なステップである。
異種表現学習の最近の進歩にもかかわらず、既存のアプローチは、しばしば表現学習と世代パフォーマンスのトレードオフ(つまり、世代品質の向上は異種表現学習のパフォーマンスを犠牲にする)に苦しむ。
本稿では,既存の非交叉学習モデルと高忠実合成モデルを簡単に組み込んだ簡易かつ汎用的なフレームワークID-GANを提案する。
提案手法は, VAEモデルを用いて非交叉表現を学習し, 高忠実度合成のためのGAN生成器に追加のニュアンス変数で学習表現を蒸留する。
両方の生成モデルが同じ生成因子をレンダリングするように調整するために、学習した潜在コードと出力の間の相互情報を最大化するために、GANジェネレータをさらに制約する。
単純さにもかかわらず,提案手法は高効率であり,不整合表現を用いた最先端の手法に匹敵する画質を実現する。
また,提案する分解により,効率良く安定なモデル設計が可能となることを示すとともに,画像合成結果(1024×1024ピクセル)を不等角表現を用いて初めて実証する。
関連論文リスト
- Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - Scaling Rectified Flow Transformers for High-Resolution Image Synthesis [22.11487736315616]
整流流(rectified flow)は、データとノイズを直線で接続する最近の生成モデルである。
我々は,既存のノイズサンプリング手法を改良し,それらを知覚的に関係のあるスケールに偏りを持たせることにより,整流モデルの訓練を行う。
本稿では,2つのモードの重みを分離したテキスト・画像生成のためのトランスフォーマー・ベースアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-05T18:45:39Z) - SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。
このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。
エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:53:34Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - StraIT: Non-autoregressive Generation with Stratified Image Transformer [63.158996766036736]
Stratified Image Transformer(StraIT)は、純粋な非自己回帰(NAR)生成モデルである。
実験の結果,StraIT は NAR 生成を著しく改善し,既存の DM および AR 手法より優れていた。
論文 参考訳(メタデータ) (2023-03-01T18:59:33Z) - Learning Sparse Latent Representations for Generator Model [7.467412443287767]
そこで本研究では,ジェネレータモデルの潜在空間に空間空間を強制する教師なし学習手法を提案する。
我々のモデルは1つのトップダウンジェネレータネットワークから成り、潜在変数を観測データにマッピングする。
論文 参考訳(メタデータ) (2022-09-20T18:58:24Z) - Incorporating Reinforced Adversarial Learning in Autoregressive Image
Generation [39.55651747758391]
本稿では,自己回帰モデルに対するポリシー勾配最適化に基づく強化適応学習(RAL)を提案する。
RALはまた、VQ-VAEフレームワークの異なるモジュール間のコラボレーションを強化する。
提案手法は,64$times$64画像解像度でCelebaの最先端結果を実現する。
論文 参考訳(メタデータ) (2020-07-20T08:10:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。