論文の概要: Are Images Indistinguishable to Humans Also Indistinguishable to Classifiers?
- arxiv url: http://arxiv.org/abs/2405.18029v3
- Date: Fri, 11 Oct 2024 05:11:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-14 10:02:59.699778
- Title: Are Images Indistinguishable to Humans Also Indistinguishable to Classifiers?
- Title(参考訳): 画像は人間には識別できないのか?
- Authors: Zebin You, Xinyu Zhang, Hanzhong Guo, Jingdong Wang, Chongxuan Li,
- Abstract要約: ニューラルネットワークベースの分類器の観点からは、高度な拡散モデルでさえもこの目標には程遠いことが示される。
本手法は,生成したデータの特定の特徴を解析することにより,拡散モデルの診断ツールとして自然に機能する。
モデルオートファジー障害に光を当て、生成されたデータの使用に関する洞察を提供する。
- 参考スコア(独自算出の注目度): 39.31679737754048
- License:
- Abstract: The ultimate goal of generative models is to perfectly capture the data distribution. For image generation, common metrics of visual quality (e.g., FID) and the perceived truthfulness of generated images seem to suggest that we are nearing this goal. However, through distribution classification tasks, we reveal that, from the perspective of neural network-based classifiers, even advanced diffusion models are still far from this goal. Specifically, classifiers are able to consistently and effortlessly distinguish real images from generated ones across various settings. Moreover, we uncover an intriguing discrepancy: classifiers can easily differentiate between diffusion models with comparable performance (e.g., U-ViT-H vs. DiT-XL), but struggle to distinguish between models within the same family but of different scales (e.g., EDM2-XS vs. EDM2-XXL). Our methodology carries several important implications. First, it naturally serves as a diagnostic tool for diffusion models by analyzing specific features of generated data. Second, it sheds light on the model autophagy disorder and offers insights into the use of generated data: augmenting real data with generated data is more effective than replacing it.
- Abstract(参考訳): 生成モデルの最終的な目標は、データの分散を完全にキャプチャすることだ。
画像生成では、視覚的品質(例えば、FID)の一般的な指標と、生成した画像の正しさは、この目標に近づいていることを示唆している。
しかし、分布分類タスクにより、ニューラルネットワークベースの分類器の観点からも、高度な拡散モデルでさえもこの目標には程遠いことが分かる。
具体的には、分類器は、さまざまな設定で生成された画像と実際の画像とを一貫して、かつ、努力的に区別することができる。
分類器は、同等の性能を持つ拡散モデル(例えば、U-ViT-H vs. DiT-XL)を容易に区別できるが、同じファミリー内のモデルと異なるスケール(例えば、EDM2-XS vs. EDM2-XXL)のモデルの区別に苦労する。
私たちの方法論にはいくつかの重要な意味がある。
まず、生成されたデータの特定の特徴を分析することで拡散モデルの診断ツールとして自然に機能する。
第二に、モデルオートファジー障害に光を当て、生成されたデータの使用に関する洞察を提供する。
関連論文リスト
- Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。
拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。
本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-02-16T16:47:21Z) - Do text-free diffusion models learn discriminative visual
representations? [43.05419164830729]
本稿では,タスクの両ファミリーを同時に扱うモデルである統一表現学習者の可能性について検討する。
生成タスクの最先端手法である拡散モデル(拡散モデル)を素数候補として開発する。
拡散モデルはGANよりも優れており、融合とフィードバック機構により、差別的タスクのための最先端の教師なし画像表現学習手法と競合することができる。
論文 参考訳(メタデータ) (2023-11-29T18:59:59Z) - Intriguing properties of generative classifiers [14.57861413242093]
我々は、テキストから画像へのモデルを分類器に変換する生成モデリングの進歩の上に構築する。
Imagenでは99%)、人間レベルのアウト・オブ・ディストリビューションの精度、人間の分類エラーと最先端のアライメントに近い、記録破りの人間のような形状バイアスを示しています。
以上の結果から,人間の物体認識のモデル化のパラダイムは差別的推論であるが,ゼロショット生成モデルは人間の物体認識データを驚くほどよく近似していることが示唆された。
論文 参考訳(メタデータ) (2023-09-28T18:19:40Z) - Your Diffusion Model is Secretly a Zero-Shot Classifier [90.40799216880342]
大規模テキスト・画像拡散モデルからの密度推定をゼロショット分類に活用できることを示す。
分類に対する我々の生成的アプローチは、様々なベンチマークで強い結果が得られる。
我々の結果は、下流タスクにおける差別的モデルよりも生成的な利用に向けての一歩である。
論文 参考訳(メタデータ) (2023-03-28T17:59:56Z) - Diffusion Models as Artists: Are we Closing the Gap between Humans and
Machines? [4.802758600019422]
2022年、ブーティンらによる「多様性対認識可能性」スコアリングの枠組みを適用した。
ワンショット拡散モデルが人間と機械のギャップを埋め始めたことは明らかです。
論文 参考訳(メタデータ) (2023-01-27T14:08:15Z) - Traditional Classification Neural Networks are Good Generators: They are
Competitive with DDPMs and GANs [104.72108627191041]
従来のニューラルネットワーク分類器は、最先端の生成モデルに匹敵する高品質な画像を生成することができることを示す。
マスクをベースとした再構成モジュールを提案し, 意味的勾配を意識し, 可視画像の合成を行う。
また,本手法は,画像テキスト基盤モデルに関して,テキスト・画像生成にも適用可能であることを示す。
論文 参考訳(メタデータ) (2022-11-27T11:25:35Z) - Diffusion Visual Counterfactual Explanations [51.077318228247925]
VCE(Visual Counterfactual Explanations)は、画像の決定を理解するための重要なツールである。
VCEの生成に対する現在のアプローチは、逆向きに堅牢なモデルに制限されており、しばしば非現実的なアーティファクトを含んでいる。
本稿では、任意のイメージネット分類器に対して、視覚拡散対実説明(DVCE)を生成することでこれを克服する。
論文 参考訳(メタデータ) (2022-10-21T09:35:47Z) - Counterfactual Generative Networks [59.080843365828756]
画像生成過程を直接監督せずに訓練する独立した因果機構に分解することを提案する。
適切な誘導バイアスを活用することによって、これらのメカニズムは物体の形状、物体の質感、背景を解き放つ。
その結果, 偽画像は, 元の分類タスクにおける性能の低下を伴い, 分散性が向上することが示された。
論文 参考訳(メタデータ) (2021-01-15T10:23:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。