論文の概要: How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models
- arxiv url: http://arxiv.org/abs/2102.08921v1
- Date: Wed, 17 Feb 2021 18:25:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-18 14:46:26.581372
- Title: How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models
- Title(参考訳): 合成データはどれほど忠実か?
生成モデルの評価と評価のためのサンプルレベルメトリクス
- Authors: Ahmed M. Alaa, Boris van Breugel, Evgeny Saveliev, Mihaela van der
Schaar
- Abstract要約: ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
- 参考スコア(独自算出の注目度): 95.8037674226622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Devising domain- and model-agnostic evaluation metrics for generative models
is an important and as yet unresolved problem. Most existing metrics, which
were tailored solely to the image synthesis setup, exhibit a limited capacity
for diagnosing the different modes of failure of generative models across
broader application domains. In this paper, we introduce a 3-dimensional
evaluation metric, ($\alpha$-Precision, $\beta$-Recall, Authenticity), that
characterizes the fidelity, diversity and generalization performance of any
generative model in a domain-agnostic fashion. Our metric unifies statistical
divergence measures with precision-recall analysis, enabling sample- and
distribution-level diagnoses of model fidelity and diversity. We introduce
generalization as an additional, independent dimension (to the
fidelity-diversity trade-off) that quantifies the extent to which a model
copies training data -- a crucial performance indicator when modeling sensitive
data with requirements on privacy. The three metric components correspond to
(interpretable) probabilistic quantities, and are estimated via sample-level
binary classification. The sample-level nature of our metric inspires a novel
use case which we call model auditing, wherein we judge the quality of
individual samples generated by a (black-box) model, discarding low-quality
samples and hence improving the overall model performance in a post-hoc manner.
- Abstract(参考訳): 生成モデルに対するドメインおよびモデルに依存しない評価指標の開発は重要であり、未解決の課題である。
画像合成のセットアップのみに調整された既存のメトリックのほとんどは、幅広いアプリケーションドメインにわたる生成モデルの異なる障害モードを診断する能力に制限がある。
本稿では,任意の生成モデルの忠実度,多様性,一般化性能をドメインに依存しない方法で特徴づける3次元評価指標 ($\alpha$-Precision, $\beta$-Recall, Authenticity) を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
モデルがトレーニングデータをコピーする範囲を定量化する(忠実度分散トレードオフ)追加の独立した次元として一般化を導入します。これは、機密データをプライバシー要件でモデリングする際に重要なパフォーマンス指標です。
3つの計量成分は(解釈可能な)確率量に対応し、サンプルレベルのバイナリ分類によって推定される。
ここでは,黒箱モデルによって生成された個々のサンプルの品質を判断し,低品質なサンプルを廃棄し,その結果,ポストホックな方法で全体のモデル性能を向上させる。
関連論文リスト
- OMNIINPUT: A Model-centric Evaluation Framework through Output
Distribution [31.00645110294068]
我々は,AI/MLモデルの予測品質を,可能なすべての入力に対して評価するモデル中心評価フレームワークOmniInputを提案する。
提案手法では, 学習モデルの入力と出力分布を求めるために, 効率的なサンプリング器を用いる。
実験により,OmniInputはモデル間のよりきめ細かい比較を可能にした。
論文 参考訳(メタデータ) (2023-12-06T04:53:12Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - GMValuator: Similarity-based Data Valuation for Generative Models [41.76259565672285]
生成モデル評価器(GMValuator, Generative Model Valuator, GMValuator, GMValuator)を導入した。
GMValuatorは、その有効性を示すために、様々なデータセットや生成アーキテクチャで広く評価されている。
論文 参考訳(メタデータ) (2023-04-21T02:02:02Z) - Feature Likelihood Divergence: Evaluating the Generalization of
Generative Models Using Samples [25.657798631897908]
Feature Likelihood Divergenceは、生成モデルの包括的なトリコトミック評価を提供する。
我々は,以前に提案された指標が失敗した場合でも,FLDが過度に適合する問題を識別できることを実証的に示す。
論文 参考訳(メタデータ) (2023-02-09T04:57:27Z) - Statistical Model Criticism of Variational Auto-Encoders [15.005894753472894]
変分自動エンコーダ(VAE)の統計的評価のための枠組みを提案する。
我々は、手書き文字のイメージと英文のコーパスをモデル化する文脈において、このフレームワークの2つの例をテストする。
論文 参考訳(メタデータ) (2022-04-06T18:19:29Z) - A Unified Statistical Learning Model for Rankings and Scores with
Application to Grant Panel Review [1.240096657086732]
ランク付けとスコアは、審査員がオブジェクトのコレクションにおける好みや品質の知覚を表現するために使用する2つの一般的なデータタイプである。
各タイプのデータを個別に研究するためのモデルが多数存在するが、両タイプのデータを同時に取得する統一統計モデルは存在しない。
このギャップを埋めるために,Mallows-Binomialモデルを提案し,BinomialスコアモデルとMallowsの$phi$ランキングモデルを組み合わせた。
論文 参考訳(メタデータ) (2022-01-07T16:56:52Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Characterizing Fairness Over the Set of Good Models Under Selective
Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。
到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。
選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2021-01-02T02:11:37Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。