論文の概要: InvGAN: Invertable GANs
- arxiv url: http://arxiv.org/abs/2112.04598v1
- Date: Wed, 8 Dec 2021 21:39:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-10 23:34:21.545289
- Title: InvGAN: Invertable GANs
- Title(参考訳): InvGAN: Invertable GANs
- Authors: Partha Ghosh, Dominik Zietlow, Michael J. Black, Larry S. Davis,
Xiaochen Hu
- Abstract要約: InvGANは、高品質な生成モデルの潜在空間に実際の画像を埋め込む。
Invertable GANの略である textbfInvGAN は、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
- 参考スコア(独自算出の注目度): 88.58338626299837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generation of photo-realistic images, semantic editing and representation
learning are a few of many potential applications of high resolution generative
models. Recent progress in GANs have established them as an excellent choice
for such tasks. However, since they do not provide an inference model, image
editing or downstream tasks such as classification can not be done on real
images using the GAN latent space. Despite numerous efforts to train an
inference model or design an iterative method to invert a pre-trained
generator, previous methods are dataset (e.g. human face images) and
architecture (e.g. StyleGAN) specific. These methods are nontrivial to extend
to novel datasets or architectures. We propose a general framework that is
agnostic to architecture and datasets. Our key insight is that, by training the
inference and the generative model together, we allow them to adapt to each
other and to converge to a better quality model. Our \textbf{InvGAN}, short for
Invertable GAN, successfully embeds real images to the latent space of a high
quality generative model. This allows us to perform image inpainting, merging,
interpolation and online data augmentation. We demonstrate this with extensive
qualitative and quantitative experiments.
- Abstract(参考訳): フォトリアリスティック画像の生成、セマンティック編集、表現学習は、高解像度生成モデルの潜在的な応用のいくつかである。
GANの最近の進歩は、こうしたタスクに優れた選択肢として確立されている。
しかし、推論モデルを提供していないため、画像編集や分類などの下流タスクは、GANラテント空間を用いて実際の画像では実行できない。
推論モデルをトレーニングしたり、事前訓練されたジェネレータを反転させる反復的な手法を設計するための多くの努力にもかかわらず、以前の手法はデータセット(例えば、人間の顔画像)とアーキテクチャ(例えば、StyleGAN)である。
これらのメソッドを新しいデータセットやアーキテクチャに拡張するのは非自明です。
アーキテクチャやデータセットに依存しない汎用フレームワークを提案する。
私たちの重要な洞察は、推論と生成モデルを一緒に訓練することで、互いに適応し、よりよい品質モデルに収束できるということです。
Invertable GAN の略である我々の \textbf{InvGAN} は、高品質な生成モデルの潜在空間に実画像を埋め込むことに成功した。
これにより、画像のインペインティング、マージ、補間、オンラインデータ拡張が実行できます。
定性的かつ定量的な実験によってこれを実証する。
関連論文リスト
- Regularized Training with Generated Datasets for Name-Only Transfer of Vision-Language Models [36.59260354292177]
近年のテキスト・画像生成の進歩により、研究者は生成モデルを用いて知覚モデルに適したデータセットを生成するようになった。
我々は、実際の画像にアクセスせずに、視覚言語モデルを特定の分類モデルに微調整することを目指している。
生成した画像の忠実度が高いにもかかわらず、生成したデータセットを用いてモデルを微調整すると、顕著な性能劣化が観測された。
論文 参考訳(メタデータ) (2024-06-08T10:43:49Z) - Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。
DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文 参考訳(メタデータ) (2023-12-20T09:39:19Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - LayoutDiffuse: Adapting Foundational Diffusion Models for
Layout-to-Image Generation [24.694298869398033]
提案手法は,高い知覚品質とレイアウトアライメントの両面から画像を生成し,効率よく訓練する。
提案手法は, GAN, VQ-VAE, 拡散モデルに基づく他の10種類の生成モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-02-16T14:20:25Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z) - Implementing and Experimenting with Diffusion Models for Text-to-Image
Generation [0.0]
DALL-E 2 と Imagen という2つのモデルでは、画像の単純なテキスト記述から高画質の画像を生成できることが示されている。
テキスト・ツー・イメージのモデルは、トレーニングに必要な膨大な計算リソースと、インターネットから収集された巨大なデータセットを扱う必要がある。
この論文は、これらのモデルが使用するさまざまなアプローチとテクニックをレビューし、それから、テキスト・ツー・イメージ・モデルの独自の実装を提案することで貢献する。
論文 参考訳(メタデータ) (2022-09-22T12:03:33Z) - A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。
シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。
我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文 参考訳(メタデータ) (2021-12-09T18:59:21Z) - A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。
我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文 参考訳(メタデータ) (2021-12-07T05:22:50Z) - Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。
本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。
以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:27:38Z) - StackGAN: Facial Image Generation Optimizations [0.0]
現在の最先端のフォトリアリスティック・ジェネレータは計算コストが高く、不安定な訓練過程を伴い、高次元空間で異なる実空間と合成分布を持つ。
そこで我々は,条件付きジェネレータを組み込んだStackGANアーキテクチャの変種を提案する。
我々のモデルはCelebA顔画像データセットを用いて訓練され、エッジ画像のFr'echet Inception Distance(FID)スコア73、合成エッジ画像のグレースケール画像のスコア59を達成した。
論文 参考訳(メタデータ) (2021-08-30T15:04:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。