論文の概要: Enhanced Generative Model Evaluation with Clipped Density and Coverage
- arxiv url: http://arxiv.org/abs/2507.01761v1
- Date: Wed, 02 Jul 2025 14:40:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.331081
- Title: Enhanced Generative Model Evaluation with Clipped Density and Coverage
- Title(参考訳): き裂密度と被覆率による生成モデル評価の強化
- Authors: Nicolas Salvy, Hugues Talbot, Bertrand Thirion,
- Abstract要約: 生成モデルは近年顕著な進歩を遂げているが、重要な用途での使用は、サンプルの品質を確実に評価する能力の欠如によって妨げられている。
Clipped DensityとClipped Coverageの2つの新しい指標を紹介した。
クラップ密度とクラップ被覆は、生成モデルを評価するための堅牢性、感度、解釈可能性の観点から、既存の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 37.90622498945809
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although generative models have made remarkable progress in recent years, their use in critical applications has been hindered by their incapacity to reliably evaluate sample quality. Quality refers to at least two complementary concepts: fidelity and coverage. Current quality metrics often lack reliable, interpretable values due to an absence of calibration or insufficient robustness to outliers. To address these shortcomings, we introduce two novel metrics, Clipped Density and Clipped Coverage. By clipping individual sample contributions and, for fidelity, the radii of nearest neighbor balls, our metrics prevent out-of-distribution samples from biasing the aggregated values. Through analytical and empirical calibration, these metrics exhibit linear score degradation as the proportion of poor samples increases. Thus, they can be straightforwardly interpreted as equivalent proportions of good samples. Extensive experiments on synthetic and real-world datasets demonstrate that Clipped Density and Clipped Coverage outperform existing methods in terms of robustness, sensitivity, and interpretability for evaluating generative models.
- Abstract(参考訳): 近年, 生成モデルが顕著な進歩を遂げているが, 試料の品質を確実に評価する能力の欠如により, 重要な応用への利用が妨げられている。
品質とは、少なくとも2つの相補的な概念、すなわち忠実さとカバレッジを指す。
現在の品質指標は、キャリブレーションの欠如や、外れ値に対するロバスト性が不十分なため、信頼性が高く解釈可能な値が欠落していることが多い。
これらの欠点に対処するために、Clipped DensityとClipped Coverageという2つの新しい指標を紹介します。
個々のサンプルの寄与をクリップし, 近接する球の半径を忠実にすることで, 分布外サンプルが集約された値に偏りを生じないようにする。
分析的および経験的キャリブレーションを通じて、これらの測定値は、粗悪なサンプルの割合が増加するにつれて線形スコアの劣化を示す。
したがって、それらは直接的に良いサンプルの等価な比例と解釈できる。
合成および実世界のデータセットに対する大規模な実験により、クリッピング密度とクラッピング被覆は、生成モデルを評価するための堅牢性、感度、解釈可能性の観点から、既存の手法より優れていることが示された。
関連論文リスト
- Beyond One-Hot Labels: Semantic Mixing for Model Calibration [22.39558434131574]
textbfCalibration-aware Semantic Mixing (CSM) は、クラス特性の混合したトレーニングサンプルを生成する新しいフレームワークである。
我々はCSMが最先端のキャリブレーション手法よりも優れたキャリブレーションを実現することを示す。
論文 参考訳(メタデータ) (2025-04-18T08:26:18Z) - Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - Probabilistic Precision and Recall Towards Reliable Evaluation of
Generative Models [7.770029179741429]
問題に対処する確率論的アプローチに基づいて,P-precision and P-recall (PP&PR)を提案する。
我々のPP&PRは、既存の指標よりも忠実度と多様性を比較するための信頼性の高い見積もりを提供することを示す。
論文 参考訳(メタデータ) (2023-09-04T13:19:17Z) - Feature Likelihood Divergence: Evaluating the Generalization of
Generative Models Using Samples [25.657798631897908]
Feature Likelihood Divergenceは、生成モデルの包括的なトリコトミック評価を提供する。
我々は,以前に提案された指標が失敗した場合でも,FLDが過度に適合する問題を識別できることを実証的に示す。
論文 参考訳(メタデータ) (2023-02-09T04:57:27Z) - Evaluating Synthetic Tabular Data Generated To Augment Small Sample Datasets [0.0]
本研究は,小サンプルデータセットの増大にともなう合成データの評価手法を提案する。
実験の結果,大域的測度とトポロジカル測度との間には大きな矛盾が認められた。
単一の計量が分布的および構造的類似性の両方を確実に捉えることはない。
論文 参考訳(メタデータ) (2022-11-19T18:18:52Z) - Monotonicity and Double Descent in Uncertainty Estimation with Gaussian
Processes [52.92110730286403]
限界確率はクロスバリデーションの指標を思い起こさせるべきであり、どちらもより大きな入力次元で劣化すべきである、と一般的に信じられている。
我々は,ハイパーパラメータをチューニングすることにより,入力次元と単調に改善できることを証明した。
また、クロスバリデーションの指標は、二重降下の特徴である質的に異なる挙動を示すことも証明した。
論文 参考訳(メタデータ) (2022-10-14T08:09:33Z) - Fake It Till You Make It: Near-Distribution Novelty Detection by
Score-Based Generative Models [54.182955830194445]
既存のモデルは、いわゆる"近く分布"設定で失敗するか、劇的な低下に直面します。
本稿では, スコアに基づく生成モデルを用いて, 合成近分布異常データを生成することを提案する。
本手法は,9つのノベルティ検出ベンチマークにおいて,近分布ノベルティ検出を6%改善し,最先端のノベルティ検出を1%から5%パスする。
論文 参考訳(メタデータ) (2022-05-28T02:02:53Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z) - TraDE: Transformers for Density Estimation [101.20137732920718]
TraDEは自己回帰密度推定のための自己アテンションに基づくアーキテクチャである。
本稿では, 生成したサンプルを用いた回帰, 分布外検出, トレーニングデータにおける雑音に対する頑健性などのタスクについて述べる。
論文 参考訳(メタデータ) (2020-04-06T07:32:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。