論文の概要: Are Image Distributions Indistinguishable to Humans Indistinguishable to Classifiers?
- arxiv url: http://arxiv.org/abs/2405.18029v1
- Date: Tue, 28 May 2024 10:25:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 19:08:25.402222
- Title: Are Image Distributions Indistinguishable to Humans Indistinguishable to Classifiers?
- Title(参考訳): 画像の分布は分類器と区別できないか?
- Authors: Zebin You, Xinyu Zhang, Hanzhong Guo, Jingdong Wang, Chongxuan Li,
- Abstract要約: ニューラルネットワークによってパラメータ化される分類器の視点では、最強拡散モデルは、まだこの目標から程遠い。
我々の総合的な実証研究は、人間とは異なり、分類器は画像のエッジと高周波成分を分類する傾向があることを示唆している。
- 参考スコア(独自算出の注目度): 39.31679737754048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ultimate goal of generative models is to characterize the data distribution perfectly. For image generation, common metrics of visual quality (e.g., FID), and the truthlikeness of generated images to the human eyes seem to suggest that we are close to achieving it. However, through distribution classification tasks, we find that, in the eyes of classifiers parameterized by neural networks, the strongest diffusion models are still far from this goal. Specifically, classifiers consistently and effortlessly distinguish between real and generated images in various settings. Further, we observe an intriguing discrepancy: classifiers can identify differences between diffusion models with similar performance (e.g., U-ViT-H vs. DiT-XL), but struggle to differentiate between the smallest and largest models in the same family (e.g., EDM2-XS vs. EDM2-XXL), whereas humans exhibit the opposite tendency. As an explanation, our comprehensive empirical study suggests that, unlike humans, classifiers tend to classify images through edge and high-frequency components. We believe that our methodology can serve as a probe to understand how generative models work and inspire further thought on how existing models can be improved and how the abuse of such models can be prevented.
- Abstract(参考訳): 生成モデルの最終的な目標は、データの分散を完全に特徴づけることである。
画像生成では、視覚的品質の一般的な指標(例えば、FID)と、生成した画像の人間の目への真実性は、その達成に近づいていることを示唆している。
しかし、分布分類タスクにより、ニューラルネットワークによってパラメータ化される分類器の視点では、最強拡散モデルがこの目標から程遠いことが分かる。
特に、分類器は、様々な設定において、実画像と生成画像とを一貫して、かつ、力ずくで区別する。
分類器は類似の性能を持つ拡散モデル(例: U-ViT-H vs. DiT-XL)の違いを識別するが、同じ家系の最小モデルと最大モデル(例: EDM2-XS vs. EDM2-XXL)の区別に苦労する。
説明として、我々の総合的な実証研究は、人間とは異なり、分類器は画像のエッジと高周波成分を分類する傾向があることを示唆している。
我々の方法論は、生成モデルがどのように機能するかを理解し、既存のモデルがどのように改善され、そのようなモデルの悪用が防げるかをより深く考えるための調査となると信じている。
関連論文リスト
- DreamDA: Generative Data Augmentation with Diffusion Models [68.22440150419003]
本稿では,新しい分類指向フレームワークDreamDAを提案する。
DreamDAは、オリジナルのデータのトレーニングイメージを種として考慮して、オリジナルのデータ分布に準拠する多様なサンプルを生成する。
また、生成したデータのラベルは、対応するシード画像のラベルと一致しない可能性があるため、擬似ラベルを生成するための自己学習パラダイムを導入する。
論文 参考訳(メタデータ) (2024-03-19T15:04:35Z) - Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。
拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。
本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-02-16T16:47:21Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - InfoDiffusion: Representation Learning Using Information Maximizing
Diffusion Models [35.566528358691336]
InfoDiffusionは低次元潜伏変数を持つ拡散モデルを拡張するアルゴリズムである。
情報拡散は、観測された変数と隠れた変数の相互情報に規則化された学習目標に依存する。
インフォディフュージョンは、最先端の生成的およびコントラスト的手法と競合する非絡み合いおよび人間解釈可能な潜在表現を学習する。
論文 参考訳(メタデータ) (2023-06-14T21:48:38Z) - Intriguing properties of synthetic images: from generative adversarial
networks to diffusion models [19.448196464632]
実際の画像と偽画像を区別する上で,どの画像の特徴がより優れているかを知ることが重要である。
本稿では, 実画像と生成画像の最も法学的に関係した特徴を発見することを目的とした, 異なる家系の多数の画像生成装置の系統的研究について報告する。
論文 参考訳(メタデータ) (2023-04-13T11:13:19Z) - Your Diffusion Model is Secretly a Zero-Shot Classifier [90.40799216880342]
大規模テキスト・画像拡散モデルからの密度推定をゼロショット分類に活用できることを示す。
分類に対する我々の生成的アプローチは、様々なベンチマークで強い結果が得られる。
我々の結果は、下流タスクにおける差別的モデルよりも生成的な利用に向けての一歩である。
論文 参考訳(メタデータ) (2023-03-28T17:59:56Z) - Traditional Classification Neural Networks are Good Generators: They are
Competitive with DDPMs and GANs [104.72108627191041]
従来のニューラルネットワーク分類器は、最先端の生成モデルに匹敵する高品質な画像を生成することができることを示す。
マスクをベースとした再構成モジュールを提案し, 意味的勾配を意識し, 可視画像の合成を行う。
また,本手法は,画像テキスト基盤モデルに関して,テキスト・画像生成にも適用可能であることを示す。
論文 参考訳(メタデータ) (2022-11-27T11:25:35Z) - Fast Unsupervised Brain Anomaly Detection and Segmentation with
Diffusion Models [1.6352599467675781]
脳画像における異常検出とセグメント分割のための拡散モデルに基づく手法を提案する。
拡散モデルは,2次元CTおよびMRIデータを用いた一連の実験において,自己回帰的アプローチと比較して競争性能が向上する。
論文 参考訳(メタデータ) (2022-06-07T17:30:43Z) - Characterizing and Avoiding Problematic Global Optima of Variational
Autoencoders [28.36260646471421]
変分自動エンコーダ(VAEs)は、深部生成潜在変数モデルである。
最近の研究は、伝統的な訓練手法がデシダラタに反する解決策をもたらす傾向があることを示している。
どちらの問題も、VAEトレーニング目標のグローバルな最適度が望ましくない解決策とよく一致するという事実に起因していることを示す。
論文 参考訳(メタデータ) (2020-03-17T15:14:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。