論文の概要: Are Images Indistinguishable to Humans Also Indistinguishable to Classifiers?
- arxiv url: http://arxiv.org/abs/2405.18029v3
- Date: Fri, 11 Oct 2024 05:11:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-14 10:02:59.699778
- Title: Are Images Indistinguishable to Humans Also Indistinguishable to Classifiers?
- Title(参考訳): 画像は人間には識別できないのか?
- Authors: Zebin You, Xinyu Zhang, Hanzhong Guo, Jingdong Wang, Chongxuan Li,
- Abstract要約: ニューラルネットワークベースの分類器の観点からは、高度な拡散モデルでさえもこの目標には程遠いことが示される。
本手法は,生成したデータの特定の特徴を解析することにより,拡散モデルの診断ツールとして自然に機能する。
モデルオートファジー障害に光を当て、生成されたデータの使用に関する洞察を提供する。
- 参考スコア(独自算出の注目度): 39.31679737754048
- License:
- Abstract: The ultimate goal of generative models is to perfectly capture the data distribution. For image generation, common metrics of visual quality (e.g., FID) and the perceived truthfulness of generated images seem to suggest that we are nearing this goal. However, through distribution classification tasks, we reveal that, from the perspective of neural network-based classifiers, even advanced diffusion models are still far from this goal. Specifically, classifiers are able to consistently and effortlessly distinguish real images from generated ones across various settings. Moreover, we uncover an intriguing discrepancy: classifiers can easily differentiate between diffusion models with comparable performance (e.g., U-ViT-H vs. DiT-XL), but struggle to distinguish between models within the same family but of different scales (e.g., EDM2-XS vs. EDM2-XXL). Our methodology carries several important implications. First, it naturally serves as a diagnostic tool for diffusion models by analyzing specific features of generated data. Second, it sheds light on the model autophagy disorder and offers insights into the use of generated data: augmenting real data with generated data is more effective than replacing it.
- Abstract(参考訳): 生成モデルの最終的な目標は、データの分散を完全にキャプチャすることだ。
画像生成では、視覚的品質(例えば、FID)の一般的な指標と、生成した画像の正しさは、この目標に近づいていることを示唆している。
しかし、分布分類タスクにより、ニューラルネットワークベースの分類器の観点からも、高度な拡散モデルでさえもこの目標には程遠いことが分かる。
具体的には、分類器は、さまざまな設定で生成された画像と実際の画像とを一貫して、かつ、努力的に区別することができる。
分類器は、同等の性能を持つ拡散モデル(例えば、U-ViT-H vs. DiT-XL)を容易に区別できるが、同じファミリー内のモデルと異なるスケール(例えば、EDM2-XS vs. EDM2-XXL)のモデルの区別に苦労する。
私たちの方法論にはいくつかの重要な意味がある。
まず、生成されたデータの特定の特徴を分析することで拡散モデルの診断ツールとして自然に機能する。
第二に、モデルオートファジー障害に光を当て、生成されたデータの使用に関する洞察を提供する。
関連論文リスト
- DreamDA: Generative Data Augmentation with Diffusion Models [68.22440150419003]
本稿では,新しい分類指向フレームワークDreamDAを提案する。
DreamDAは、オリジナルのデータのトレーニングイメージを種として考慮して、オリジナルのデータ分布に準拠する多様なサンプルを生成する。
また、生成したデータのラベルは、対応するシード画像のラベルと一致しない可能性があるため、擬似ラベルを生成するための自己学習パラダイムを導入する。
論文 参考訳(メタデータ) (2024-03-19T15:04:35Z) - Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。
拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。
本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-02-16T16:47:21Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - InfoDiffusion: Representation Learning Using Information Maximizing
Diffusion Models [35.566528358691336]
InfoDiffusionは低次元潜伏変数を持つ拡散モデルを拡張するアルゴリズムである。
情報拡散は、観測された変数と隠れた変数の相互情報に規則化された学習目標に依存する。
インフォディフュージョンは、最先端の生成的およびコントラスト的手法と競合する非絡み合いおよび人間解釈可能な潜在表現を学習する。
論文 参考訳(メタデータ) (2023-06-14T21:48:38Z) - Intriguing properties of synthetic images: from generative adversarial
networks to diffusion models [19.448196464632]
実際の画像と偽画像を区別する上で,どの画像の特徴がより優れているかを知ることが重要である。
本稿では, 実画像と生成画像の最も法学的に関係した特徴を発見することを目的とした, 異なる家系の多数の画像生成装置の系統的研究について報告する。
論文 参考訳(メタデータ) (2023-04-13T11:13:19Z) - Your Diffusion Model is Secretly a Zero-Shot Classifier [90.40799216880342]
大規模テキスト・画像拡散モデルからの密度推定をゼロショット分類に活用できることを示す。
分類に対する我々の生成的アプローチは、様々なベンチマークで強い結果が得られる。
我々の結果は、下流タスクにおける差別的モデルよりも生成的な利用に向けての一歩である。
論文 参考訳(メタデータ) (2023-03-28T17:59:56Z) - Traditional Classification Neural Networks are Good Generators: They are
Competitive with DDPMs and GANs [104.72108627191041]
従来のニューラルネットワーク分類器は、最先端の生成モデルに匹敵する高品質な画像を生成することができることを示す。
マスクをベースとした再構成モジュールを提案し, 意味的勾配を意識し, 可視画像の合成を行う。
また,本手法は,画像テキスト基盤モデルに関して,テキスト・画像生成にも適用可能であることを示す。
論文 参考訳(メタデータ) (2022-11-27T11:25:35Z) - Fast Unsupervised Brain Anomaly Detection and Segmentation with
Diffusion Models [1.6352599467675781]
脳画像における異常検出とセグメント分割のための拡散モデルに基づく手法を提案する。
拡散モデルは,2次元CTおよびMRIデータを用いた一連の実験において,自己回帰的アプローチと比較して競争性能が向上する。
論文 参考訳(メタデータ) (2022-06-07T17:30:43Z) - Characterizing and Avoiding Problematic Global Optima of Variational
Autoencoders [28.36260646471421]
変分自動エンコーダ(VAEs)は、深部生成潜在変数モデルである。
最近の研究は、伝統的な訓練手法がデシダラタに反する解決策をもたらす傾向があることを示している。
どちらの問題も、VAEトレーニング目標のグローバルな最適度が望ましくない解決策とよく一致するという事実に起因していることを示す。
論文 参考訳(メタデータ) (2020-03-17T15:14:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。