論文の概要: The Vendi Score: A Diversity Evaluation Metric for Machine Learning
- arxiv url: http://arxiv.org/abs/2210.02410v2
- Date: Sun, 2 Jul 2023 22:58:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-04 15:40:11.914034
- Title: The Vendi Score: A Diversity Evaluation Metric for Machine Learning
- Title(参考訳): Vendi Score: マシンラーニングのための多様性評価指標
- Authors: Dan Friedman and Adji Bousso Dieng
- Abstract要約: 我々は、生態学と量子統計力学のアイデアを機械学習(ML)に結びつけるVendi Scoreを提案する。
類似機能を入力として取り込むことで、Vendi Scoreはユーザが望む多様性の形式を指定することができる。
我々は、分子生成モデリングに関するVendi Scoreを紹介し、その領域における現在の多様性指標の欠点に対処することを発見した。
また、Vendi Scoreを画像の生成モデルやテキストの復号アルゴリズムに適用し、それらの領域の多様性に関する既知の結果を確認した。
- 参考スコア(独自算出の注目度): 4.595428357774472
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diversity is an important criterion for many areas of machine learning (ML),
including generative modeling and dataset curation. However, existing metrics
for measuring diversity are often domain-specific and limited in flexibility.
In this paper, we address the diversity evaluation problem by proposing the
Vendi Score, which connects and extends ideas from ecology and quantum
statistical mechanics to ML. The Vendi Score is defined as the exponential of
the Shannon entropy of the eigenvalues of a similarity matrix. This matrix is
induced by a user-defined similarity function applied to the sample to be
evaluated for diversity. In taking a similarity function as input, the Vendi
Score enables its user to specify any desired form of diversity. Importantly,
unlike many existing metrics in ML, the Vendi Score does not require a
reference dataset or distribution over samples or labels, it is therefore
general and applicable to any generative model, decoding algorithm, and dataset
from any domain where similarity can be defined. We showcase the Vendi Score on
molecular generative modeling where we found it addresses shortcomings of the
current diversity metric of choice in that domain. We also applied the Vendi
Score to generative models of images and decoding algorithms of text where we
found it confirms known results about diversity in those domains. Furthermore,
we used the Vendi Score to measure mode collapse, a known shortcoming of
generative adversarial networks (GANs). In particular, the Vendi Score revealed
that even GANs that capture all the modes of a labeled dataset can be less
diverse than the original dataset. Finally, the interpretability of the Vendi
Score allowed us to diagnose several benchmark ML datasets for diversity,
opening the door for diversity-informed data augmentation.
- Abstract(参考訳): 多様性は、生成モデリングやデータセットキュレーションを含む、機械学習(ML)の多くの領域において重要な基準である。
しかしながら、多様性を測定するための既存のメトリクスは、しばしばドメイン固有であり、柔軟性に制限がある。
本稿では,エコロジーや量子統計力学のアイデアをMLに接続し,拡張するVendi Scoreを提案することにより,多様性評価の問題に対処する。
ヴェンディスコアは類似行列の固有値のシャノンエントロピーの指数として定義される。
このマトリックスは、多様性を評価するためにサンプルに適用されたユーザー定義の類似度関数によって誘導される。
類似機能を入力として取り込むことで、Vendi Scoreはユーザが望む多様性の形式を指定することができる。
重要な点として、MLの既存のメトリクスとは異なり、Vendi Scoreは参照データセットやサンプルやラベル上の分布を必要としないため、類似性を定義することができる任意の領域からの任意の生成モデル、デコードアルゴリズム、データセットに適用可能である。
我々は、分子生成モデリングに関するVendi Scoreを紹介し、その領域における現在の多様性指標の欠点に対処することを発見した。
また、Vendi Scoreを画像の生成モデルやテキストの復号アルゴリズムに適用し、それらの領域の多様性に関する既知の結果を確認した。
さらに,generative adversarial network (gans) の既知の欠点であるモード崩壊を測定するために,vendiスコアを用いた。
特にVendi Scoreは、ラベル付きデータセットのすべてのモードをキャプチャするGANでさえ、元のデータセットよりも多様性が低いことを示した。
最後に、vendiスコアの解釈可能性により、多様性のためにいくつかのベンチマークmlデータセットを診断することができ、多様性に欠けるデータ拡張の扉を開くことができた。
関連論文リスト
- Image Generation Diversity Issues and How to Tame Them [8.858030256056095]
生成メソッドは、実際のデータとほとんど区別できない出力を生成するが、多くの場合、データの完全なキャプチャに失敗する。
本稿では、生成モデルにおける現在の多様性の欠如と、これを測定するための共通指標の欠如に留意する。
画像検索問題として多様性をフレーミングすることでこれを実現し、合成データを用いて実画像の検索回数をクエリとして測定する。
論文 参考訳(メタデータ) (2024-11-25T08:00:21Z) - Conditional Vendi Score: An Information-Theoretic Approach to Diversity Evaluation of Prompt-based Generative Models [15.40817940713399]
モデルの内部の多様性を定量化するために,$H(X|T)$に基づく条件付きVendiスコアを導入する。
テキスト条件付き生成モデルの条件-ベンダースコアと内部の多様性との相関を示すために,いくつかの数値実験を行った。
論文 参考訳(メタデータ) (2024-11-05T05:30:39Z) - MMGRec: Multimodal Generative Recommendation with Transformer Model [81.61896141495144]
MMGRecは、マルチモーダルレコメンデーションに生成パラダイムを導入することを目指している。
まず,階層的な量子化手法であるGraph CF-RQVAEを考案し,各項目にRec-IDを割り当てる。
次に、Transformerベースのレコメンデータをトレーニングし、過去のインタラクションシーケンスに基づいて、ユーザが推奨するアイテムのRec-IDを生成する。
論文 参考訳(メタデータ) (2024-04-25T12:11:27Z) - JPAVE: A Generation and Classification-based Model for Joint Product
Attribute Prediction and Value Extraction [59.94977231327573]
JPAVEと呼ばれる値生成/分類と属性予測を備えたマルチタスク学習モデルを提案する。
我々のモデルの2つの変種は、オープンワールドとクローズドワールドのシナリオのために設計されている。
公開データセットにおける実験結果は,強いベースラインと比較して,我々のモデルが優れていることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:36:16Z) - Cousins Of The Vendi Score: A Family Of Similarity-Based Diversity Metrics For Science And Machine Learning [2.992602379681373]
Vendi Score(ヴェンディ・スコア)は、一般的な類似性に基づく多様性指標である。
ヴェンディスコアは類似性を考慮し、多様性を評価するためにコレクション内のカテゴリの頻度に関する知識を必要としない。
We use the Vendi scores to improve understanding the behavior of image Generative model in terms of memorization, duplication, diversity, and sample quality。
論文 参考訳(メタデータ) (2023-10-19T17:52:04Z) - Explaining Cross-Domain Recognition with Interpretable Deep Classifier [100.63114424262234]
解釈可能なDeep(IDC)は、ターゲットサンプルの最も近いソースサンプルを、分類器が決定を下す証拠として学習する。
我々のIDCは、精度の劣化がほとんどなく、最適なリジェクションオプションの分類を効果的に調整する、より説明可能なモデルに導かれる。
論文 参考訳(メタデータ) (2022-11-15T15:58:56Z) - Identifiable Latent Causal Content for Domain Adaptation under Latent Covariate Shift [82.14087963690561]
マルチソースドメイン適応(MSDA)は、ラベル付き対象ドメインのラベル予測関数を学習する際の課題に対処する。
本稿では,潜在コンテンツ変数と潜時スタイル変数とともに,ドメイン間の潜時雑音を導入し,複雑な因果生成モデルを提案する。
提案手法は、シミュレーションと実世界の両方のデータセットに対して、例外的な性能と有効性を示す。
論文 参考訳(メタデータ) (2022-08-30T11:25:15Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z) - Disentangled Variational Autoencoder based Multi-Label Classification
with Covariance-Aware Multivariate Probit Model [10.004081409670516]
マルチラベル分類は、複数のターゲットの存在と欠如を予測する上で難しい課題である。
本稿では,ラベル相関だけでなく,遅延埋め込み空間を効果的に学習するマルチラベル分類のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-12T23:08:07Z) - Automatic Validation of Textual Attribute Values in E-commerce Catalog
by Learning with Limited Labeled Data [61.789797281676606]
そこで我々はMetaBridgeと呼ばれる新しいメタ学習潜伏変数アプローチを提案する。
限られたラベル付きデータを持つカテゴリのサブセットから、転送可能な知識を学ぶことができる。
ラベルのないデータで、目に見えないカテゴリの不確実性を捉えることができる。
論文 参考訳(メタデータ) (2020-06-15T21:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。