論文の概要: Optimized latent-code selection for explainable conditional
text-to-image GANs
- arxiv url: http://arxiv.org/abs/2204.12678v1
- Date: Wed, 27 Apr 2022 03:12:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-28 13:27:16.264162
- Title: Optimized latent-code selection for explainable conditional
text-to-image GANs
- Title(参考訳): 説明可能な条件付きテキスト・ツー・イメージGANのための最適潜時符号選択
- Authors: Zhenxing Zhang and Lambert Schomaker
- Abstract要約: 本稿では,条件付きテキスト・ツー・イメージGANモデルの潜時空間と意味空間を深く検討する様々な手法を提案する。
本稿では,線形SVMを用いて,優れた潜在コードを見つけるためのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.26410341981427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of text-to-image generation has achieved remarkable progress due to
the advances in the conditional generative adversarial networks (GANs).
However, existing conditional text-to-image GANs approaches mostly concentrate
on improving both image quality and semantic relevance but ignore the
explainability of the model which plays a vital role in real-world
applications. In this paper, we present a variety of techniques to take a deep
look into the latent space and semantic space of the conditional text-to-image
GANs model. We introduce pairwise linear interpolation of latent codes and
`linguistic' linear interpolation to study what the model has learned within
the latent space and `linguistic' embeddings. Subsequently, we extend linear
interpolation to triangular interpolation conditioned on three corners to
further analyze the model. After that, we build a Good/Bad data set containing
unsuccessfully and successfully synthetic samples and corresponding latent
codes for the image-quality research. Based on this data set, we propose a
framework for finding good latent codes by utilizing a linear SVM. Experimental
results on the recent DiverGAN generator trained on two benchmark data sets
qualitatively prove the effectiveness of our presented techniques, with a
better than 94\% accuracy in predicting ${Good}$/${Bad}$ classes for latent
vectors. The Good/Bad data set is publicly available at
https://zenodo.org/record/5850224#.YeGMwP7MKUk.
- Abstract(参考訳): テキスト対画像生成のタスクは,条件付き生成型adversarial network (gans) の進歩により著しい進歩を遂げている。
しかし、既存の条件付きテキストから画像へのgansアプローチは、主に画像品質と意味的関連性の両方を改善することに集中しているが、現実世界のアプリケーションにおいて重要な役割を果たすモデルの説明可能性を無視している。
本稿では,条件付きテキスト・ツー・イメージGANモデルの潜在空間と意味空間を深く理解するための様々な手法を提案する。
潜在符号のペアワイズ線形補間と'言語'線形補間を導入し、そのモデルが潜在空間内で学んだことや'言語'埋め込みを研究する。
その後、線形補間を三隅に条件付けられた三角補間まで拡張し、さらにモデルを解析する。
その後、画像品質研究のための合成サンプルとそれに対応する潜時符号を含むグッド/バッドデータセットを構築した。
このデータセットに基づいて,線形SVMを用いて,優れた潜伏コードを見つけるためのフレームワークを提案する。
提案手法の有効性を定性的に証明する2つのベンチマークデータセットで訓練された最近のダイバーガン生成器の実験結果について, 潜時ベクトルに対する${good}$/${bad}$クラスを予測した場合, 94\%以上の精度で検証した。
Good/Badデータセットはhttps://zenodo.org/record/5850224#で公開されている。
YeGMwP7MKUk。
関連論文リスト
- Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - Flow Matching in Latent Space [2.9330609943398525]
フローマッチングは、印象的な経験的パフォーマンスを示す生成モデルをトレーニングするフレームワークである。
本稿では,事前学習されたオートエンコーダの潜時空間にフローマッチングを適用し,計算効率を向上させることを提案する。
我々の研究は、条件生成タスクのフローマッチングへの様々な条件の統合における先駆的な貢献である。
論文 参考訳(メタデータ) (2023-07-17T17:57:56Z) - Extracting Semantic Knowledge from GANs with Unsupervised Learning [65.32631025780631]
GAN(Generative Adversarial Networks)は、特徴写像のセマンティクスを線形に分離可能な形でエンコードする。
本稿では,線形分離性を利用してGANの特徴をクラスタリングする新しいクラスタリングアルゴリズムKLiSHを提案する。
KLiSHは、さまざまなオブジェクトのデータセットに基づいてトレーニングされたGANのきめ細かいセマンティクスの抽出に成功している。
論文 参考訳(メタデータ) (2022-11-30T03:18:16Z) - DeepDC: Deep Distance Correlation as a Perceptual Image Quality
Evaluator [53.57431705309919]
ImageNet Pre-trained Deep Neural Network (DNN)は、効果的な画像品質評価(IQA)モデルを構築するための顕著な転送性を示す。
我々は,事前学習DNN機能のみに基づく新しいフル参照IQA(FR-IQA)モデルを開発した。
5つの標準IQAデータセット上で,提案した品質モデルの優位性を示すため,包括的実験を行った。
論文 参考訳(メタデータ) (2022-11-09T14:57:27Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z) - OptGAN: Optimizing and Interpreting the Latent Space of the Conditional
Text-to-Image GANs [8.26410341981427]
生成したサンプルが信頼でき、現実的、あるいは自然であることを保証する方法について研究する。
本稿では,条件付きテキスト・ツー・イメージGANアーキテクチャの潜在空間における意味論的理解可能な方向を識別するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-25T20:00:33Z) - GLIDE: Towards Photorealistic Image Generation and Editing with
Text-Guided Diffusion Models [16.786221846896108]
テキスト条件画像合成問題に対する拡散モデルについて検討し、2つの異なるガイダンス戦略を比較した。
後者は、フォトリアリズムとキャプションの類似性の両方において、人間の評価者によって好まれており、しばしばフォトリアリスティックなサンプルを生成する。
我々のモデルは、画像のインペイントを行うように微調整することができ、強力なテキスト駆動画像編集を可能にします。
論文 参考訳(メタデータ) (2021-12-20T18:42:55Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z) - Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文 参考訳(メタデータ) (2021-08-03T08:38:16Z) - Knowledge Generation -- Variational Bayes on Knowledge Graphs [0.685316573653194]
この論文は、現実世界の知識グラフの表現に関するVari Auto-Encoder (VAE) の概念実証である。
生成グラフへのアプローチの成功に触発されて,本モデルである変分オートエンコーダ(rgvae)の能力を評価する。
RGVAEはリンク予測に基づいて評価される。
2つのFB15K-237およびWN18RRデータセットの平均相互ランク(MRR)スコアを比較します。
2次実験における潜伏空間について検討する:まず、2つの三重項の潜伏表現の間の線型、そして各三重項の探索
論文 参考訳(メタデータ) (2021-01-21T21:23:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。