論文の概要: Statistical Model Criticism of Variational Auto-Encoders
- arxiv url: http://arxiv.org/abs/2204.03030v1
- Date: Wed, 6 Apr 2022 18:19:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-09 08:08:45.567167
- Title: Statistical Model Criticism of Variational Auto-Encoders
- Title(参考訳): 変分オートエンコーダの統計的モデル批判
- Authors: Claartje Barkhof and Wilker Aziz
- Abstract要約: 変分自動エンコーダ(VAE)の統計的評価のための枠組みを提案する。
我々は、手書き文字のイメージと英文のコーパスをモデル化する文脈において、このフレームワークの2つの例をテストする。
- 参考スコア(独自算出の注目度): 15.005894753472894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a framework for the statistical evaluation of variational
auto-encoders (VAEs) and test two instances of this framework in the context of
modelling images of handwritten digits and a corpus of English text. Our take
on evaluation is based on the idea of statistical model criticism, popular in
Bayesian data analysis, whereby a statistical model is evaluated in terms of
its ability to reproduce statistics of an unknown data generating process from
which we can obtain samples. A VAE learns not one, but two joint distributions
over a shared sample space, each exploiting a choice of factorisation that
makes sampling tractable in one of two directions (latent-to-data,
data-to-latent). We evaluate samples from these distributions, assessing their
(marginal) fit to the observed data and our choice of prior, and we also
evaluate samples through a pipeline that connects the two distributions
starting from a data sample, assessing whether together they exploit and reveal
latent factors of variation that are useful to a practitioner. We show that
this methodology offers possibilities for model selection qualitatively beyond
intrinsic evaluation metrics and at a finer granularity than commonly used
statistics can offer.
- Abstract(参考訳): 本稿では,変分オートエンコーダ(vaes)の統計的評価のためのフレームワークを提案し,手書き文字と英語テキストのコーパスのモデリングの文脈において,このフレームワークの2つのインスタンスをテストする。
評価の考え方は,ベイズデータ解析で一般的である統計モデル批判の考え方に基づいており,サンプルを得ることのできる未知のデータ生成プロセスの統計を再現する能力という観点から,統計モデルを評価する。
vaeは共有サンプル空間上の1つではなく2つの共同分布を学習し、それぞれが2つの方向(データからデータへ)の1つでサンプリングできる因子化の選択を利用する。
また,これらの分布から得られたサンプルを,観測データと先行選択に適合して評価し,データサンプルから始まる2つの分布を接続するパイプラインを通じてサンプルを評価し,これらを併用して,実践者にとって有用な潜伏要因を明らかにする。
本手法は,本手法が本質的な評価指標を超えて定性的にモデル選択を行う可能性を示し,一般的な統計値よりも詳細な粒度を示す。
関連論文リスト
- How to Select Datapoints for Efficient Human Evaluation of NLG Models? [57.60407340254572]
人間の評価に最も有用なデータポイントを得るためのセレクタ群を開発した。
本研究では,自動測定値の分散に基づくセレクタ,モデル出力の多様性,項目応答理論がランダム選択より優れていることを示す。
特に,情報源に基づく推定手法を導入し,情報源のテキストに基づいて人体評価に有用な項目を推定する。
論文 参考訳(メタデータ) (2025-01-30T10:33:26Z) - PQMass: Probabilistic Assessment of the Quality of Generative Models
using Probability Mass Estimation [8.527898482146103]
生成モデルの品質を評価するための包括的サンプルベース手法を提案する。
提案手法により,同じ分布から2組のサンプルが引き出される確率を推定できる。
論文 参考訳(メタデータ) (2024-02-06T19:39:26Z) - On the Distributed Evaluation of Generative Models [15.629121946912088]
我々は、広く使われている距離ベース評価指標であるFr'echet Inception Distance(FID)とKernel Inception Distance(KID)に焦点を当てる。
KID測定の場合、クライアントの平均KIDスコアを用いた生成モデルのスコアは、すべてのクライアントのデータを含む集合参照セットに対して集中的なKID評価と同じランキングとなることが証明される。
分散環境では、各クライアントが2つの生成モデルに同じFIDスコアを割り当てるが、2つのモデルの集中的なFIDスコアは著しく異なる。
論文 参考訳(メタデータ) (2023-10-18T05:06:04Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - MAUVE Scores for Generative Models: Theory and Practice [95.86006777961182]
本報告では,テキストや画像の生成モデルで発生するような分布のペア間の比較尺度であるMAUVEについて述べる。
我々は、MAUVEが人間の文章の分布と現代のニューラル言語モデルとのギャップを定量化できることを発見した。
我々は、MAUVEが既存のメトリクスと同等以上の画像の既知の特性を識別できることを視覚領域で実証する。
論文 参考訳(メタデータ) (2022-12-30T07:37:40Z) - fAux: Testing Individual Fairness via Gradient Alignment [2.5329739965085785]
いずれの要件も持たない個別の公正性をテストするための新しいアプローチについて述べる。
提案手法は,合成データセットと実世界のデータセットの識別を効果的に行う。
論文 参考訳(メタデータ) (2022-10-10T21:27:20Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - A Unified Statistical Learning Model for Rankings and Scores with
Application to Grant Panel Review [1.240096657086732]
ランク付けとスコアは、審査員がオブジェクトのコレクションにおける好みや品質の知覚を表現するために使用する2つの一般的なデータタイプである。
各タイプのデータを個別に研究するためのモデルが多数存在するが、両タイプのデータを同時に取得する統一統計モデルは存在しない。
このギャップを埋めるために,Mallows-Binomialモデルを提案し,BinomialスコアモデルとMallowsの$phi$ランキングモデルを組み合わせた。
論文 参考訳(メタデータ) (2022-01-07T16:56:52Z) - Sampling from Arbitrary Functions via PSD Models [55.41644538483948]
まず確率分布をモデル化し,そのモデルからサンプリングする。
これらのモデルでは, 少数の評価値を用いて, 高精度に多数の密度を近似することが可能であることが示され, それらのモデルから効果的にサンプルする簡単なアルゴリズムが提示される。
論文 参考訳(メタデータ) (2021-10-20T12:25:22Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。