論文の概要: Gini Coefficient as a Unified Metric for Evaluating Many-versus-Many Similarity in Vector Spaces
- arxiv url: http://arxiv.org/abs/2411.07983v1
- Date: Tue, 12 Nov 2024 18:08:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:21:33.115139
- Title: Gini Coefficient as a Unified Metric for Evaluating Many-versus-Many Similarity in Vector Spaces
- Title(参考訳): ベクトル空間における多対多類似性評価のための統一計量としてのジーニ係数
- Authors: Ben Fauber,
- Abstract要約: Gini係数が最も高い画像は互いに最もよく似ている傾向を示し、Gini係数が最も低い画像は最もよく似ていることを示す。
また、テストデータセットの分布と密に一致した機械学習トレーニングサンプルを選択することは、データの多様性を保証することよりもはるかに重要であることも示しています。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We demonstrate that Gini coefficients can be used as unified metrics to evaluate many-versus-many (all-to-all) similarity in vector spaces. Our analysis of various image datasets shows that images with the highest Gini coefficients tend to be the most similar to one another, while images with the lowest Gini coefficients are the least similar. We also show that this relationship holds true for vectorized text embeddings from various corpuses, highlighting the consistency of our method and its broad applicability across different types of data. Additionally, we demonstrate that selecting machine learning training samples that closely match the distribution of the testing dataset is far more important than ensuring data diversity. Selection of exemplary and iconic training samples with higher Gini coefficients leads to significantly better model performance compared to simply having a diverse training set with lower Gini coefficients. Thus, Gini coefficients can serve as effective criteria for selecting machine learning training samples, with our selection method outperforming random sampling methods in very sparse information settings.
- Abstract(参考訳): 我々は、ベクトル空間における多対多の類似性を評価するために、ジニ係数が統一メトリクスとして使用できることを示した。
Gini係数が最も高い画像は互いに最もよく似ているが、Gini係数が低い画像は最もよく似ている。
また, この関係は, 様々なコーパスからのベクトル化テキスト埋め込みに対して真であることを示すとともに, 手法の整合性と, 様々な種類のデータに適用可能であることを示す。
さらに、テストデータセットの分布と密に一致した機械学習トレーニングサンプルを選択することは、データの多様性を保証することよりもはるかに重要であることを実証する。
Gini係数の高い模範的および象徴的なトレーニングサンプルの選択は、Gini係数の低い多様なトレーニングセットを持つことに比べて、モデル性能が大幅に向上する。
このようにして、Gini係数は機械学習トレーニングサンプルの選択に有効な基準となり、我々の選択方法は、非常にスパースな情報設定でランダムサンプリング法より優れている。
関連論文リスト
- Multiple importance sampling for stochastic gradient estimation [33.42221341526944]
勾配推定のためのミニバッチサンプルの効率的な重要サンプリングのための理論的および実用的枠組みを提案する。
雑音の勾配に対処するため、我々のフレームワークは自己適応的計量を用いてトレーニング中の重要度分布を動的に進化させる。
論文 参考訳(メタデータ) (2024-07-22T10:28:56Z) - Contributing Dimension Structure of Deep Feature for Coreset Selection [26.759457501199822]
Coreset selectionは、効率的な学習のための重要なトレーニングサンプルのサブセットを選択することを目指している。
サンプル選択は、パフォーマンス向上におけるサンプルの表現と、オーバーフィッティングを回避するためのサンプルの多様性の役割である。
既存の手法は典型的には類似度の測定値に基づいてデータの表現と多様性を計測する。
論文 参考訳(メタデータ) (2024-01-29T14:47:26Z) - Convolutional autoencoder-based multimodal one-class classification [80.52334952912808]
1クラス分類は、単一のクラスからのデータを用いた学習のアプローチを指す。
マルチモーダルデータに適した深層学習一クラス分類法を提案する。
論文 参考訳(メタデータ) (2023-09-25T12:31:18Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - ACTIVE:Augmentation-Free Graph Contrastive Learning for Partial
Multi-View Clustering [52.491074276133325]
部分的マルチビュークラスタリングの問題を解決するために,拡張自由グラフコントラスト学習フレームワークを提案する。
提案手法は、インスタンスレベルのコントラスト学習と欠落データ推論をクラスタレベルに高め、個々の欠落データがクラスタリングに与える影響を効果的に軽減する。
論文 参考訳(メタデータ) (2022-03-01T02:32:25Z) - Gated recurrent units and temporal convolutional network for multilabel
classification [122.84638446560663]
本研究は,マルチラベル分類を管理するための新しいアンサンブル手法を提案する。
提案手法のコアは,Adamグラデーション最適化アプローチの変種で訓練された,ゲート再帰単位と時間畳み込みニューラルネットワークの組み合わせである。
論文 参考訳(メタデータ) (2021-10-09T00:00:16Z) - A Compositional Feature Embedding and Similarity Metric for
Ultra-Fine-Grained Visual Categorization [16.843126268445726]
きめ細かい視覚分類(FGVC)は、クラス間の差異が小さいオブジェクトを分類することを目的としている。
本稿では,超微細な視覚分類のための新しい構成的特徴埋め込みと類似度指標(CECS)を提案する。
最近のベンチマーク手法を用いた2つの超FGVCデータセットと1つのFGVCデータセットの実験結果から,提案手法が最先端性能を実現することを一貫して示している。
論文 参考訳(メタデータ) (2021-09-25T15:05:25Z) - CSI: Novelty Detection via Contrastive Learning on Distributionally
Shifted Instances [77.28192419848901]
コントラストシフトインスタンス (CSI) という,単純かつ効果的な手法を提案する。
従来のコントラスト学習法のように,サンプルを他の例と対比することに加えて,本トレーニング手法では,サンプルを分散シフトによる拡張と対比する。
本実験は, 種々の新規検出シナリオにおける本手法の優位性を実証する。
論文 参考訳(メタデータ) (2020-07-16T08:32:56Z) - Memory-Augmented Relation Network for Few-Shot Learning [114.47866281436829]
本研究では,新しい距離学習手法であるメモリ拡張リレーショナルネットワーク(MRN)について検討する。
MRNでは、作業状況と視覚的に類似したサンプルを選択し、重み付け情報伝搬を行い、選択したサンプルから有用な情報を注意深く集約し、その表現を強化する。
我々は、MRNが祖先よりも大幅に向上し、他の数発の学習手法と比較して、競争力や性能が向上することを示した。
論文 参考訳(メタデータ) (2020-05-09T10:09:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。