論文の概要: Self-conditioned Image Generation via Generating Representations
- arxiv url: http://arxiv.org/abs/2312.03701v1
- Date: Wed, 6 Dec 2023 18:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 13:49:30.636975
- Title: Self-conditioned Image Generation via Generating Representations
- Title(参考訳): 表現生成による自己条件画像生成
- Authors: Tianhong Li, Dina Katabi, Kaiming He
- Abstract要約: 本稿では,$textbfR$epresentation-$textbfC$onditioned image $textbfG$eneration (RCG)を提案する。
RCGは人間のアノテーションに条件を定めず、代わりに自己監督された表現分布に条件を定めている。
ImageNet 256$times$256でテストした結果、RCGはFrechet Inception Distance (FID)が3.31、Inception Score (IS)が253.4に達した。
- 参考スコア(独自算出の注目度): 40.77064480127814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents $\textbf{R}$epresentation-$\textbf{C}$onditioned image
$\textbf{G}$eneration (RCG), a simple yet effective image generation framework
which sets a new benchmark in class-unconditional image generation. RCG does
not condition on any human annotations. Instead, it conditions on a
self-supervised representation distribution which is mapped from the image
distribution using a pre-trained encoder. During generation, RCG samples from
such representation distribution using a representation diffusion model (RDM),
and employs a pixel generator to craft image pixels conditioned on the sampled
representation. Such a design provides substantial guidance during the
generative process, resulting in high-quality image generation. Tested on
ImageNet 256$\times$256, RCG achieves a Frechet Inception Distance (FID) of
3.31 and an Inception Score (IS) of 253.4. These results not only significantly
improve the state-of-the-art of class-unconditional image generation but also
rival the current leading methods in class-conditional image generation,
bridging the long-standing performance gap between these two tasks. Code is
available at https://github.com/LTH14/rcg.
- Abstract(参考訳): 本稿では,クラス無条件画像生成の新しいベンチマークを設定する簡易かつ効果的な画像生成フレームワークである,$\textbf{r}$epresentation-$\textbf{c}$onditioned image $\textbf{g}$eneration (rcg)を提案する。
RCGは人間のアノテーションを条件にしていない。
代わりに、事前訓練されたエンコーダを用いて画像分布からマップされる自己教師付き表現分布を条件とする。
生成中、RCGは、表現拡散モデル(RDM)を用いて、そのような表現分布からサンプルをサンプリングし、サンプル表現に条件付けされた画像ピクセルを作成する。
このような設計は生成過程においてかなりのガイダンスを与え、高品質な画像生成をもたらす。
ImageNet 256$\times$256でテストした結果、RCGは3.31のFrechet Inception Distance(FID)と253.4のInception Score(IS)を達成した。
これらの結果は、クラス非条件画像生成の最先端性を著しく向上するだけでなく、クラス非条件画像生成における現在の先行手法に匹敵するものであり、これらの2つのタスク間の長期的なパフォーマンスギャップを埋めるものである。
コードはhttps://github.com/lth14/rcgで入手できる。
関連論文リスト
- Score-based Conditional Generation with Fewer Labeled Data by
Self-calibrating Classifier Guidance [16.025002076222002]
SGM(Score-based Generative Model)は、画像生成品質の高い深層生成モデルのファミリである。
この問題は、下層の非条件分布とコーディネートすることなく、分類器が過度に適合する傾向に根ざしていると論じる。
分類器自身を正規化させることにより、分類器誘導型SGMを改善することを提案する。
論文 参考訳(メタデータ) (2023-07-09T01:41:22Z) - Generator Knows What Discriminator Should Learn in Unconditional GANs [18.913330654689496]
生成元の特徴マップは、非条件生成においてリッチな意味表現を持つように識別器を監督する新しいジェネレータ誘導型識別器正規化(GGDR)を提案する。
具体的には,識別器のU-Netアーキテクチャを用いて,擬似画像を入力として生成する特徴マップの予測を訓練する。
論文 参考訳(メタデータ) (2022-07-27T06:49:26Z) - Spatially Multi-conditional Image Generation [80.04130168156792]
本稿では,マルチ条件画像生成の問題に対処する新しいニューラルアーキテクチャを提案する。
提案手法は, 利用可能なラベルを入力トークンとして受信する, 画素単位のトランスフォーマー型アーキテクチャを用いる。
3つのベンチマークデータセットに対する実験により,提案手法の最先端および比較ベースラインに対する明らかな優位性を示した。
論文 参考訳(メタデータ) (2022-03-25T17:57:13Z) - Self-Conditioned Generative Adversarial Networks for Image Editing [61.50205580051405]
Generative Adversarial Networks (GAN) はバイアスの影響を受けやすい。
我々は、このバイアスが公平性だけでなく、分布のコアから逸脱する際の潜在トラバース編集手法の崩壊に重要な役割を果たしていると論じる。
論文 参考訳(メタデータ) (2022-02-08T18:08:24Z) - Collapse by Conditioning: Training Class-conditional GANs with Limited
Data [109.30895503994687]
非条件学習を活用することにより、観測モード崩壊を効果的に防止する条件付きGAN(cGAN)のトレーニング戦略を提案する。
我々のトレーニング戦略は、無条件のGANから始まり、徐々に条件情報をジェネレータと目的関数に注入する。
安定したトレーニングだけでなく,高品質な画像を生成するために,限られたデータでcGANを訓練する手法を提案する。
論文 参考訳(メタデータ) (2022-01-17T18:59:23Z) - StackGAN: Facial Image Generation Optimizations [0.0]
現在の最先端のフォトリアリスティック・ジェネレータは計算コストが高く、不安定な訓練過程を伴い、高次元空間で異なる実空間と合成分布を持つ。
そこで我々は,条件付きジェネレータを組み込んだStackGANアーキテクチャの変種を提案する。
我々のモデルはCelebA顔画像データセットを用いて訓練され、エッジ画像のFr'echet Inception Distance(FID)スコア73、合成エッジ画像のグレースケール画像のスコア59を達成した。
論文 参考訳(メタデータ) (2021-08-30T15:04:47Z) - Dual Projection Generative Adversarial Networks for Conditional Image
Generation [26.563829113916942]
本稿では、エムデータマッチングとエムラベルマッチングのバランスをとることを学習するDual Projection GAN(P2GAN)モデルを提案する。
次に、Auxiliary Classificationを用いた改良されたcGANモデルを提案し、$f$-divergenceを最小化することで、偽条件および実条件を$P(textclass|textimage)$と直列に調整する。
論文 参考訳(メタデータ) (2021-08-20T06:10:38Z) - Guiding GANs: How to control non-conditional pre-trained GANs for
conditional image generation [69.10717733870575]
本稿では,汎用非条件GANを条件GANとして振る舞うための新しい方法を提案する。
提案手法は,非条件GANのジェネレータネットワークに供給される高次元ランダム入力を生成するために,エンコーダネットワークを混合するものである。
論文 参考訳(メタデータ) (2021-01-04T14:03:32Z) - Inducing Optimal Attribute Representations for Conditional GANs [61.24506213440997]
条件付きGANは、あるカテゴリから別のカテゴリへの画像の変換に広く使用されている。
既存の条件付きGANは、ターゲットドメインラベル情報を0と1の形式でハードコードされたカテゴリベクトルとして符号化する。
本稿では,グラフ畳み込みネットワークを用いた新しいエンドツーエンド学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-13T20:24:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。