論文の概要: Exposing Diversity Bias in Deep Generative Models: Statistical Origins and Correction of Diversity Error
- arxiv url: http://arxiv.org/abs/2602.14682v1
- Date: Mon, 16 Feb 2026 12:15:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.39463
- Title: Exposing Diversity Bias in Deep Generative Models: Statistical Origins and Correction of Diversity Error
- Title(参考訳): 深部生成モデルにおける多様性バイアスの抽出:統計的起源と多様性エラーの補正
- Authors: Farzan Farnia, Mohammad Jalali, Azim Ospanov,
- Abstract要約: 我々は,最先端モデルにより生成されたサンプルの多様性と,対象データ分布から抽出したテストサンプルの多様性を比較した。
テストデータは、生成したサンプルよりも、VendiとRKEの多様性スコアがかなり高いことが判明した。
- 参考スコア(独自算出の注目度): 19.594704501292778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep generative models have achieved great success in producing high-quality samples, making them a central tool across machine learning applications. Beyond sample quality, an important yet less systematically studied question is whether trained generative models faithfully capture the diversity of the underlying data distribution. In this work, we address this question by directly comparing the diversity of samples generated by state-of-the-art models with that of test samples drawn from the target data distribution, using recently proposed reference-free entropy-based diversity scores, Vendi and RKE. Across multiple benchmark datasets, we find that test data consistently attains substantially higher Vendi and RKE diversity scores than the generated samples, suggesting a systematic downward diversity bias in modern generative models. To understand the origin of this bias, we analyze the finite-sample behavior of entropy-based diversity scores and show that their expected values increase with sample size, implying that diversity estimated from finite training sets could inherently underestimate the diversity of the true distribution. As a result, optimizing the generators to minimize divergence to empirical data distributions would induce a loss of diversity. Finally, we discuss potential diversity-aware regularization and guidance strategies based on Vendi and RKE as principled directions for mitigating this bias, and provide empirical evidence suggesting their potential to improve the results.
- Abstract(参考訳): 深層生成モデルは高品質なサンプルを作成する上で大きな成功を収めており、機械学習アプリケーションにまたがる中心的なツールとなっている。
サンプルの品質以外にも、体系的に研究されていない重要な問題は、トレーニングされた生成モデルが基礎となるデータ分布の多様性を忠実に捉えているかどうかである。
本研究では, 対象データ分布から抽出したサンプルの多様性を直接比較し, 最近提案された基準自由エントロピーに基づく多様性スコア, Vendi と RKE を用いて, この課題に対処する。
複数のベンチマークデータセットを通して、テストデータは生成したサンプルよりもVendiとRKEの多様性スコアがかなり高いことが分かり、現代の生成モデルにおける体系的な下向きの多様性バイアスが示唆された。
このバイアスの起点を理解するために,エントロピーに基づく多様性スコアの有限サンプル挙動を分析し,その期待値が標本サイズとともに増加することを示し,有限トレーニングセットから推定された多様性が,真の分布の多様性を本質的に過小評価できることを示した。
結果として、発電機を最適化して、経験的なデータ分布への分散を最小限に抑えることは、多様性の喪失を引き起こす。
最後に、このバイアスを緩和するための原則として、VendiとRKEに基づく潜在的な多様性を考慮した正規化とガイダンス戦略について議論し、その結果を改善する可能性を示す実証的な証拠を提供する。
関連論文リスト
- Importance-Weighted Non-IID Sampling for Flow Matching Models [5.995277983968318]
本研究では,フロー分布の多様で健全な領域をカバーするために,複数のサンプルを共同で描画する重要重み付き非IIDサンプリングフレームワークを提案する。
多様性と品質のバランスをとるために,多様性機構のためのスコアベースの正規化を導入する。
提案手法は,重要度と期待値の双方について,多種多様で高品質なサンプルと正確な推定値を生成する。
論文 参考訳(メタデータ) (2025-11-21T22:05:56Z) - Learning Robust Diffusion Models from Imprecise Supervision [75.53546939251146]
DMISは、Imrecise Supervisionから堅牢な条件拡散モデルをトレーニングするための統一されたフレームワークである。
我々のフレームワークは、可能性から派生し、その目的を生成的および分類的構成要素に分解する。
画像生成、弱教師付き学習、データセットの凝縮をカバーし、様々な形の不正確な監視実験を行い、DMISが常に高品質でクラス差別的なサンプルを生成することを示した。
論文 参考訳(メタデータ) (2025-10-03T14:00:32Z) - Diverse Rare Sample Generation with Pretrained GANs [24.227852798611025]
本研究では,GANを事前学習した高解像度画像データセットから多様な希少サンプルを生成する手法を提案する。
提案手法は,多目的フレームワーク内での遅延ベクトルの勾配に基づく最適化と,特徴空間上の密度推定に正規化フローを利用する。
これにより、レア画像の生成が可能となり、レアリティ、多様性、参照画像との類似性の制御可能なパラメータが提供される。
論文 参考訳(メタデータ) (2024-12-27T09:10:30Z) - Controlling the Fidelity and Diversity of Deep Generative Models via Pseudo Density [70.14884528360199]
本稿では, GAN や拡散モデルなどのバイアス深層生成モデルへのアプローチを導入し, 忠実度の向上や多様性の向上を図ったデータ生成手法を提案する。
提案手法では, 擬似密度という, 個人サンプルの新たな測定基準を用いて, トレーニングとデータ生成の分布を操作する。
論文 参考訳(メタデータ) (2024-07-11T16:46:04Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Class-Balancing Diffusion Models [57.38599989220613]
クラスバランシング拡散モデル(CBDM)は、分散調整正規化器をソリューションとして訓練する。
提案手法は,CIFAR100/CIFAR100LTデータセットで生成結果をベンチマークし,下流認識タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-30T20:00:14Z) - Self-Diagnosing GAN: Diagnosing Underrepresented Samples in Generative
Adversarial Networks [5.754152248672317]
本研究では,GAN (Generative Adversarial Networks) のトレーニング中に未表現のサンプルを診断し強調する手法を提案する。
本研究では, 下表の試料が平均差が高いか, ばらつきが高いかの観察から, それらの試料を強調する方法を提案する。
実験により,提案手法は各種データセット上でのGAN性能の向上を実証した。
論文 参考訳(メタデータ) (2021-02-24T02:31:50Z) - GANs with Variational Entropy Regularizers: Applications in Mitigating
the Mode-Collapse Issue [95.23775347605923]
深層学習の成功に基づいて、GAN(Generative Adversarial Networks)は、観測されたサンプルから確率分布を学習するための現代的なアプローチを提供する。
GANはしばしば、ジェネレータが入力分布の既存のすべてのモードをキャプチャできないモード崩壊問題に悩まされる。
情報理論のアプローチを採り、生成したサンプルのエントロピーの変動的下限を最大化し、それらの多様性を増大させる。
論文 参考訳(メタデータ) (2020-09-24T19:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。