論文の概要: On the Statistical Complexity of Estimating Vendi Scores from Empirical Data
- arxiv url: http://arxiv.org/abs/2410.21719v2
- Date: Fri, 14 Feb 2025 01:19:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 18:06:02.862649
- Title: On the Statistical Complexity of Estimating Vendi Scores from Empirical Data
- Title(参考訳): 経験的データによるベンディスコア推定の統計的複雑さについて
- Authors: Azim Ospanov, Farzan Farnia,
- Abstract要約: Vendiスコアは、行列ベースのエントロピー測度を用いて生成されたデータの多様性を定量化するソリューションを提供する。
ベンディスコアは通常、$n$生成されたサンプルに対して$n倍n$のカーネル行列の固有分解によって計算される。
我々は,既存のNystr"om法とFKEA近似法を用いて,Vendiスコアを近似する手法が,共に人口減少のVendiスコアに収束することを示した。
- 参考スコア(独自算出の注目度): 9.054540533394926
- License:
- Abstract: Evaluating the diversity of generative models without access to reference data poses methodological challenges. The reference-free Vendi score offers a solution by quantifying the diversity of generated data using matrix-based entropy measures. The Vendi score is usually computed via the eigendecomposition of an $n \times n$ kernel matrix for $n$ generated samples. However, the heavy computational cost of eigendecomposition for large $n$ often limits the sample size used in practice to a few tens of thousands. In this paper, we investigate the statistical convergence of the Vendi score. We numerically demonstrate that for kernel functions with an infinite feature map dimension, the score estimated from a limited sample size may exhibit a non-negligible bias relative to the population Vendi score, i.e., the asymptotic limit as the sample size approaches infinity. To address this, we introduce a truncation of the Vendi statistic, called the $t$-truncated Vendi statistic, which is guaranteed to converge to its asymptotic limit given $n=O(t)$ samples. We show that the existing Nystr\"om method and the FKEA approximation method for approximating the Vendi score both converge to the population truncated Vendi score. We perform several numerical experiments to illustrate the concentration of the Nystr\"om and FKEA-computed Vendi scores around the truncated Vendi and discuss how the truncated Vendi score correlates with the diversity of image and text data.
- Abstract(参考訳): 参照データにアクセスせずに生成モデルの多様性を評価することは、方法論的な課題となる。
基準自由ベンディスコアは、行列ベースのエントロピー測度を用いて生成されたデータの多様性を定量化する解を提供する。
ベンディスコアは通常、$n$生成されたサンプルに対して$n \times n$カーネル行列の固有分解によって計算される。
しかし、大きな$n$の固有分解の重い計算コストは、実際に使われるサンプルサイズを数万に制限することが多い。
本稿では,ベンディスコアの統計的収束について検討する。
無限の特徴写像次元を持つカーネル関数に対して、限られたサンプルサイズから推定されるスコアは、Vendiの個体数に対する非無視的バイアス(つまり、サンプルサイズが無限に近づくときの漸近的限界)を示す可能性があることを数値的に示す。
この問題に対処するために、$t$-truncated Vendi statisticと呼ばれるベンディ統計のトランケーションを導入し、$n=O(t)$サンプルを与えられた漸近極限に収束することが保証される。
我々は,既存のNystr\"om法とFKEA近似法を用いて,Vendiのスコアを近似し,共に人口減少したVendiのスコアに収束することを示す。
我々は,Nystr\om と FKEA で計算された Vendi スコアのトランキャットされた Vendi 周辺での濃度を示す数値実験を行い,トランキャットされた Vendi スコアが画像やテキストデータの多様性とどのように相関するかを議論する。
関連論文リスト
- Data Distribution Valuation [56.71023681599737]
既存のデータバリュエーションメソッドは、離散データセットの値を定義します。
多くのユースケースでは、ユーザはデータセットの値だけでなく、データセットがサンプリングされた分布の値にも興味を持っています。
本稿では,理論的原理と実行可能なポリシを実現するための,MMDに基づく評価手法を提案する。
論文 参考訳(メタデータ) (2024-10-06T07:56:53Z) - Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods [59.779795063072655]
CoT(Chain-of-Thought)の促進とその変種は、多段階推論問題を解決する効果的な方法として人気を集めている。
統計的推定の観点からCoTのプロンプトを解析し,その複雑さを包括的に評価する。
論文 参考訳(メタデータ) (2024-08-25T04:07:18Z) - Large Language Monkeys: Scaling Inference Compute with Repeated Sampling [81.34900892130929]
モデルから候補解を繰り返しサンプリングする簡単な手法を用いて、推論計算をスケーリングのための別の軸として検討する。
複数のタスクやモデルにまたがって、カバレッジは4桁以上のサンプル数でスケールする。
コードや形式的証明のようなドメインでは、回答が自動的に検証されるので、カバレッジの増加は直接的にパフォーマンスの向上につながります。
論文 参考訳(メタデータ) (2024-07-31T17:57:25Z) - Entrywise Inference for Missing Panel Data: A Simple and Instance-Optimal Approach [27.301741710016223]
停滞した採用によって引き起こされたパネルデータの欠落データバージョンに関連する推論的疑問を考察する。
我々は、予め特定されたカバレッジでエントリワイドな信頼区間を構築するためのデータ駆動方式を開発し、分析する。
我々は、欠落したエントリを推定する際に、そのエラーに非漸近的かつ高い確率境界を証明した。
論文 参考訳(メタデータ) (2024-01-24T18:58:18Z) - Non-Stochastic CDF Estimation Using Threshold Queries [3.6576781735746513]
実験的な分布を2つの課題で推定する問題に取り組む。
まず、アルゴリズムはデータを直接観察するのではなく、サンプルについて限られた数のしきい値クエリしか要求しない。
第二に、データは独立で同一の分散であると仮定されず、代わりにサンプルを生成する任意のプロセスが可能である。
論文 参考訳(メタデータ) (2023-01-13T18:00:57Z) - The Vendi Score: A Diversity Evaluation Metric for Machine Learning [4.595428357774472]
我々は、生態学と量子統計力学のアイデアを機械学習(ML)に結びつけるVendi Scoreを提案する。
類似機能を入力として取り込むことで、Vendi Scoreはユーザが望む多様性の形式を指定することができる。
我々は、分子生成モデリングに関するVendi Scoreを紹介し、その領域における現在の多様性指標の欠点に対処することを発見した。
また、Vendi Scoreを画像の生成モデルやテキストの復号アルゴリズムに適用し、それらの領域の多様性に関する既知の結果を確認した。
論文 参考訳(メタデータ) (2022-10-05T17:32:16Z) - On the Subbagging Estimation for Massive Data [10.902757578215255]
本稿では,コンピュータのメモリ制約を伴うビッグデータ解析のためのサブバッキング(サブサンプル集約)推定手法を紹介する。
サイズ$N$のデータセット全体に対して、$m_N$サブサンプルはランダムに描画され、メモリ制約を満たすためにサブサンプルサイズ$k_Nll N$を持つ各サブサンプルは、交換なしで均一にサンプリングされる。
アメリカン航空のデータセットを分析して、サブバッキング推定が全サンプル推定に数値的に近く、メモリ制約下では計算速度が速いことを示す。
論文 参考訳(メタデータ) (2021-02-28T21:38:22Z) - Adjusted chi-square test for degree-corrected block models [13.122543280692641]
次数補正ブロックモデル(DCSBM)の適合性テストを提案する。
単純な調整により、$d_i$ の調和平均が無限に成長する限り、統計は null の下で分布に収束する。
我々の分布結果は漸近的ではなく、明示的な定数を持ち、目標分布へのコルモゴロフ-スミルノフ距離の有限サンプル境界を与える。
論文 参考訳(メタデータ) (2020-12-30T05:20:59Z) - Sparse Feature Selection Makes Batch Reinforcement Learning More Sample
Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。
候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文 参考訳(メタデータ) (2020-11-08T16:48:02Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z) - Multi-label Contrastive Predictive Coding [125.03510235962095]
差分相互情報(MI)推定器は、コントラスト予測符号化(CPC)のような教師なし表現学習法で広く利用されている。
本稿では,複数の正のサンプルを同時に同定する必要がある多ラベル分類問題に基づく新しい推定器を提案する。
同一量の負のサンプルを用いて複数ラベルのCPCが$log m$boundを超えることができる一方で、相互情報の有意な下限であることを示す。
論文 参考訳(メタデータ) (2020-07-20T02:46:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。