論文の概要: The Vendi Score: A Diversity Evaluation Metric for Machine Learning
- arxiv url: http://arxiv.org/abs/2210.02410v1
- Date: Wed, 5 Oct 2022 17:32:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 13:44:30.911487
- Title: The Vendi Score: A Diversity Evaluation Metric for Machine Learning
- Title(参考訳): Vendi Score: マシンラーニングのための多様性評価指標
- Authors: Dan Friedman and Adji Bousso Dieng
- Abstract要約: 我々は、生態学と量子統計力学のアイデアを機械学習(ML)に結びつけるVendi Scoreを提案する。
類似機能を入力として取り込むことで、Vendi Scoreはユーザが望む多様性の形式を指定することができる。
我々は、新しい分子の発見に多様性が重要な役割を果たす領域である分子生成モデリングに関するVendi Scoreを紹介した。
- 参考スコア(独自算出の注目度): 4.595428357774472
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diversity is an important criterion for many areas of machine learning (ML),
including generative modeling and dataset curation. Yet little work has gone
into understanding, formalizing, and measuring diversity in ML. In this paper,
we address the diversity evaluation problem by proposing the Vendi Score, which
connects and extends ideas from ecology and quantum statistical mechanics to
ML. The Vendi Score is defined as the exponential of the Shannon entropy of the
eigenvalues of a similarity matrix. This matrix is induced by a user-defined
similarity function applied to the sample to be evaluated for diversity. In
taking a similarity function as input, the Vendi Score enables its user to
specify any desired form of diversity. Importantly, unlike many existing
metrics in ML, the Vendi Score doesn't require a reference dataset or
distribution over samples or labels, it is therefore general and applicable to
any generative model, decoding algorithm, and dataset from any domain where
similarity can be defined. We showcased the Vendi Score on molecular generative
modeling, a domain where diversity plays an important role in enabling the
discovery of novel molecules. We found that the Vendi Score addresses
shortcomings of the current diversity metric of choice in that domain. We also
applied the Vendi Score to generative models of images and decoding algorithms
of text and found it confirms known results about diversity in those domains.
Furthermore, we used the Vendi Score to measure mode collapse, a known
limitation of generative adversarial networks (GANs). In particular, the Vendi
Score revealed that even GANs that capture all the modes of a labeled dataset
can be less diverse than the original dataset. Finally, the interpretability of
the Vendi Score allowed us to diagnose several benchmark ML datasets for
diversity, opening the door for diversity-informed data augmentation.
- Abstract(参考訳): 多様性は、生成モデリングやデータセットキュレーションを含む、機械学習(ML)の多くの領域において重要な基準である。
しかし、MLの多様性を理解し、形式化し、測定する作業はほとんど行われていない。
本稿では,エコロジーや量子統計力学のアイデアをMLに接続し,拡張するVendi Scoreを提案することにより,多様性評価の問題に対処する。
ヴェンディスコアは類似行列の固有値のシャノンエントロピーの指数として定義される。
このマトリックスは、多様性を評価するためにサンプルに適用されたユーザー定義の類似度関数によって誘導される。
類似機能を入力として取り込むことで、Vendi Scoreはユーザが望む多様性の形式を指定することができる。
重要なことは、MLの既存のメトリクスとは異なり、Vendi Scoreは参照データセットやサンプルやラベルの配布を必要としないため、任意の生成モデル、デコードアルゴリズム、類似性を定義可能な任意のドメインからのデータセットに適用できる。
我々は、新しい分子の発見に多様性が重要な役割を果たす領域である分子生成モデリングに関するVendi Scoreを紹介した。
私たちは、vendiスコアが、そのドメインにおける現在の多様性指標の欠点に対処することを見出しました。
また,画像の生成モデルとテキストの復号化アルゴリズムに適用し,それらの領域における多様性に関する既知の結果を確認した。
さらに、gans(generative adversarial network)の既知の制限であるモード崩壊を測定するために、vendiスコアを用いた。
特にVendi Scoreは、ラベル付きデータセットのすべてのモードをキャプチャするGANでさえ、元のデータセットよりも多様性が低いことを示した。
最後に、vendiスコアの解釈可能性により、多様性のためにいくつかのベンチマークmlデータセットを診断することができ、多様性に欠けるデータ拡張の扉を開くことができた。
関連論文リスト
- Image Generation Diversity Issues and How to Tame Them [8.858030256056095]
生成メソッドは、実際のデータとほとんど区別できない出力を生成するが、多くの場合、データの完全なキャプチャに失敗する。
本稿では、生成モデルにおける現在の多様性の欠如と、これを測定するための共通指標の欠如に留意する。
画像検索問題として多様性をフレーミングすることでこれを実現し、合成データを用いて実画像の検索回数をクエリとして測定する。
論文 参考訳(メタデータ) (2024-11-25T08:00:21Z) - Conditional Vendi Score: An Information-Theoretic Approach to Diversity Evaluation of Prompt-based Generative Models [15.40817940713399]
モデルの内部の多様性を定量化するために,$H(X|T)$に基づく条件付きVendiスコアを導入する。
テキスト条件付き生成モデルの条件-ベンダースコアと内部の多様性との相関を示すために,いくつかの数値実験を行った。
論文 参考訳(メタデータ) (2024-11-05T05:30:39Z) - MMGRec: Multimodal Generative Recommendation with Transformer Model [81.61896141495144]
MMGRecは、マルチモーダルレコメンデーションに生成パラダイムを導入することを目指している。
まず,階層的な量子化手法であるGraph CF-RQVAEを考案し,各項目にRec-IDを割り当てる。
次に、Transformerベースのレコメンデータをトレーニングし、過去のインタラクションシーケンスに基づいて、ユーザが推奨するアイテムのRec-IDを生成する。
論文 参考訳(メタデータ) (2024-04-25T12:11:27Z) - JPAVE: A Generation and Classification-based Model for Joint Product
Attribute Prediction and Value Extraction [59.94977231327573]
JPAVEと呼ばれる値生成/分類と属性予測を備えたマルチタスク学習モデルを提案する。
我々のモデルの2つの変種は、オープンワールドとクローズドワールドのシナリオのために設計されている。
公開データセットにおける実験結果は,強いベースラインと比較して,我々のモデルが優れていることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:36:16Z) - Cousins Of The Vendi Score: A Family Of Similarity-Based Diversity Metrics For Science And Machine Learning [2.992602379681373]
Vendi Score(ヴェンディ・スコア)は、一般的な類似性に基づく多様性指標である。
ヴェンディスコアは類似性を考慮し、多様性を評価するためにコレクション内のカテゴリの頻度に関する知識を必要としない。
We use the Vendi scores to improve understanding the behavior of image Generative model in terms of memorization, duplication, diversity, and sample quality。
論文 参考訳(メタデータ) (2023-10-19T17:52:04Z) - Explaining Cross-Domain Recognition with Interpretable Deep Classifier [100.63114424262234]
解釈可能なDeep(IDC)は、ターゲットサンプルの最も近いソースサンプルを、分類器が決定を下す証拠として学習する。
我々のIDCは、精度の劣化がほとんどなく、最適なリジェクションオプションの分類を効果的に調整する、より説明可能なモデルに導かれる。
論文 参考訳(メタデータ) (2022-11-15T15:58:56Z) - Identifiable Latent Causal Content for Domain Adaptation under Latent Covariate Shift [82.14087963690561]
マルチソースドメイン適応(MSDA)は、ラベル付き対象ドメインのラベル予測関数を学習する際の課題に対処する。
本稿では,潜在コンテンツ変数と潜時スタイル変数とともに,ドメイン間の潜時雑音を導入し,複雑な因果生成モデルを提案する。
提案手法は、シミュレーションと実世界の両方のデータセットに対して、例外的な性能と有効性を示す。
論文 参考訳(メタデータ) (2022-08-30T11:25:15Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z) - Disentangled Variational Autoencoder based Multi-Label Classification
with Covariance-Aware Multivariate Probit Model [10.004081409670516]
マルチラベル分類は、複数のターゲットの存在と欠如を予測する上で難しい課題である。
本稿では,ラベル相関だけでなく,遅延埋め込み空間を効果的に学習するマルチラベル分類のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-12T23:08:07Z) - Automatic Validation of Textual Attribute Values in E-commerce Catalog
by Learning with Limited Labeled Data [61.789797281676606]
そこで我々はMetaBridgeと呼ばれる新しいメタ学習潜伏変数アプローチを提案する。
限られたラベル付きデータを持つカテゴリのサブセットから、転送可能な知識を学ぶことができる。
ラベルのないデータで、目に見えないカテゴリの不確実性を捉えることができる。
論文 参考訳(メタデータ) (2020-06-15T21:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。