論文の概要: Traditional Classification Neural Networks are Good Generators: They are
Competitive with DDPMs and GANs
- arxiv url: http://arxiv.org/abs/2211.14794v1
- Date: Sun, 27 Nov 2022 11:25:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 14:28:28.670331
- Title: Traditional Classification Neural Networks are Good Generators: They are
Competitive with DDPMs and GANs
- Title(参考訳): 従来の分類ニューラルネットワークは優れたジェネレータである:DDPMやGANと競合する
- Authors: Guangrun Wang, Philip H.S. Torr
- Abstract要約: 従来のニューラルネットワーク分類器は、最先端の生成モデルに匹敵する高品質な画像を生成することができることを示す。
マスクをベースとした再構成モジュールを提案し, 意味的勾配を意識し, 可視画像の合成を行う。
また,本手法は,画像テキスト基盤モデルに関して,テキスト・画像生成にも適用可能であることを示す。
- 参考スコア(独自算出の注目度): 104.72108627191041
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classifiers and generators have long been separated. We break down this
separation and showcase that conventional neural network classifiers can
generate high-quality images of a large number of categories, being comparable
to the state-of-the-art generative models (e.g., DDPMs and GANs). We achieve
this by computing the partial derivative of the classification loss function
with respect to the input to optimize the input to produce an image. Since it
is widely known that directly optimizing the inputs is similar to targeted
adversarial attacks incapable of generating human-meaningful images, we propose
a mask-based stochastic reconstruction module to make the gradients
semantic-aware to synthesize plausible images. We further propose a
progressive-resolution technique to guarantee fidelity, which produces
photorealistic images. Furthermore, we introduce a distance metric loss and a
non-trivial distribution loss to ensure classification neural networks can
synthesize diverse and high-fidelity images. Using traditional neural network
classifiers, we can generate good-quality images of 256$\times$256 resolution
on ImageNet. Intriguingly, our method is also applicable to text-to-image
generation by regarding image-text foundation models as generalized
classifiers.
Proving that classifiers have learned the data distribution and are ready for
image generation has far-reaching implications, for classifiers are much easier
to train than generative models like DDPMs and GANs. We don't even need to
train classification models because tons of public ones are available for
download. Also, this holds great potential for the interpretability and
robustness of classifiers.
- Abstract(参考訳): 分類器とジェネレータは長い間分離されてきた。
この分離を分解し、従来のニューラルネットワーク分類器が、最先端の生成モデル(DDPMやGANなど)に匹敵する、多数のカテゴリの高品質な画像を生成することができることを示した。
本研究では,入力に対する分類損失関数の部分微分を計算し,入力を最適化して画像を生成する。
入力を直接最適化することは、人為的な画像を生成することができない敵攻撃に類似していることが広く知られているので、マスクベースの確率再構成モジュールを提案する。
さらに,フォトリアリスティックな画像を生成する忠実性を保証するプログレッシブレゾリューション手法を提案する。
さらに,分類ニューラルネットワークが多様で高忠実な画像を合成できることを保証するために,距離距離損失と非自明な分布損失を導入する。
従来のニューラルネットワーク分類器を使用して、ImageNet上で256$\times$256解像度の良質な画像を生成することができる。
本手法は,画像・テキスト基礎モデルを一般化分類器として扱うことで,テキストから画像への生成にも応用できる。
分類器がデータの分布を学習し、画像生成の準備が整っていることを証明すると、分類器はDDPMやGANのような生成モデルよりも訓練がずっと簡単である。
たくさんのパブリックなモデルがダウンロード可能であるため、分類モデルをトレーニングする必要はありません。
また、これは分類器の解釈可能性や堅牢性に大きな可能性を秘めている。
関連論文リスト
- Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。
DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文 参考訳(メタデータ) (2023-12-20T09:39:19Z) - Is Deep Learning Network Necessary for Image Generation? [9.131712404284876]
深層学習ネットワークを使わずに画像生成の可能性を検討する。
画像が高次元分布に従うという仮定を検証する。
実験により, 画像のFID値が, 可変オートエンコーダのFID値よりも低いことがわかった。
論文 参考訳(メタデータ) (2023-08-25T18:14:19Z) - Your Diffusion Model is Secretly a Zero-Shot Classifier [90.40799216880342]
大規模テキスト・画像拡散モデルからの密度推定をゼロショット分類に活用できることを示す。
分類に対する我々の生成的アプローチは、様々なベンチマークで強い結果が得られる。
我々の結果は、下流タスクにおける差別的モデルよりも生成的な利用に向けての一歩である。
論文 参考訳(メタデータ) (2023-03-28T17:59:56Z) - Revisiting Sparse Convolutional Model for Visual Recognition [40.726494290922204]
本稿では,画像分類のためのスパース畳み込みモデルについて再検討する。
CIFAR-10, CIFAR-100, ImageNetデータセット上でも同様に強力な実験性能を示した。
論文 参考訳(メタデータ) (2022-10-24T04:29:21Z) - Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。
本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。
以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:27:38Z) - Match What Matters: Generative Implicit Feature Replay for Continual
Learning [0.0]
クラス増分学習のためのGenIFeR(Generative Implicit Feature Replay)を提案する。
主な目的は、GAN(Generative Adversarial Network)をトレーニングして、現実的な特徴を含む画像を生成することである。
我々は、GenIFeRが従来の生成画像と特徴再生の両方よりも優れていることを実証的に示す。
論文 参考訳(メタデータ) (2021-06-09T19:29:41Z) - Ensembling with Deep Generative Views [72.70801582346344]
生成モデルは、色やポーズの変化などの現実世界の変動を模倣する人工画像の「ビュー」を合成することができる。
そこで本研究では, 画像分類などの下流解析作業において, 実画像に適用できるかどうかを検討する。
StyleGAN2を再生増強の源として使用し、顔の属性、猫の顔、車を含む分類タスクについてこの設定を調査します。
論文 参考訳(メタデータ) (2021-04-29T17:58:35Z) - Counterfactual Generative Networks [59.080843365828756]
画像生成過程を直接監督せずに訓練する独立した因果機構に分解することを提案する。
適切な誘導バイアスを活用することによって、これらのメカニズムは物体の形状、物体の質感、背景を解き放つ。
その結果, 偽画像は, 元の分類タスクにおける性能の低下を伴い, 分散性が向上することが示された。
論文 参考訳(メタデータ) (2021-01-15T10:23:12Z) - Guiding GANs: How to control non-conditional pre-trained GANs for
conditional image generation [69.10717733870575]
本稿では,汎用非条件GANを条件GANとして振る舞うための新しい方法を提案する。
提案手法は,非条件GANのジェネレータネットワークに供給される高次元ランダム入力を生成するために,エンコーダネットワークを混合するものである。
論文 参考訳(メタデータ) (2021-01-04T14:03:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。