論文の概要: Dataset Diversity Metrics and Impact on Classification Models
- arxiv url: http://arxiv.org/abs/2603.15276v1
- Date: Mon, 16 Mar 2026 13:41:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.389767
- Title: Dataset Diversity Metrics and Impact on Classification Models
- Title(参考訳): データセットの多様性指標と分類モデルへの影響
- Authors: Théo Sourget, Niclas Claßen, Jack Junchi Xu, Rob van der Goot, Veronika Cheplygina,
- Abstract要約: MorphoMNIST と PadChest を用いて,画像,テキスト,メタデータに対する複数のデータセットの多様性指標の振る舞いについて検討した。
AUCと画像またはメタデータの参照不要な多様性指標との間には限定的な相関関係があるが、FIDと意味多様性指標との相関関係は高い。
- 参考スコア(独自算出の注目度): 11.059756667205603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The diversity of training datasets is usually perceived as an important aspect to obtain a robust model. However, the definition of diversity is often not defined or differs across papers, and while some metrics exist, the quantification of this diversity is often overlooked when developing new algorithms. In this work, we study the behaviour of multiple dataset diversity metrics for image, text and metadata using MorphoMNIST, a toy dataset with controlled perturbations, and PadChest, a publicly available chest X-ray dataset. We evaluate whether these metrics correlate with each other but also with the intuition of a clinical expert. We also assess whether they correlate with downstream-task performance and how they impact the training dynamic of the models. We find limited correlations between the AUC and image or metadata reference-free diversity metrics, but higher correlations with the FID and the semantic diversity metrics. Finally, the clinical expert indicates that scanners are the main source of diversity in practice. However, we find that the addition of another scanner to the training set leads to shortcut learning. The code used in this study is available at https://github.com/TheoSourget/dataset_diversity_evaluation
- Abstract(参考訳): トレーニングデータセットの多様性は通常、堅牢なモデルを得るために重要な側面として認識される。
しかしながら、多様性の定義はしばしば定義されず、論文間で異なっており、いくつかの指標が存在するが、新しいアルゴリズムを開発する際にこの多様性の定量化は見過ごされがちである。
本研究では,MorphoMNISTとPadChestを用いて,画像,テキスト,メタデータに対する複数のデータセットの多様性指標の挙動について検討した。
また,これらの指標が臨床専門家の直感と相関しているかどうかを検討した。
また、下流タスクのパフォーマンスと相関し、モデルのトレーニングダイナミクスにどのように影響するかを評価する。
AUCと画像またはメタデータの参照不要な多様性指標との間には限定的な相関関係があるが、FIDと意味多様性指標との相関関係は高い。
最後に、臨床専門家は、スキャナーが実際の主な多様性の源であることを示唆している。
しかし、トレーニングセットに別のスキャナを追加することで、ショートカット学習がもたらされることがわかった。
この研究で使用されたコードはhttps://github.com/TheoSourget/dataset_diversity_evaluationで公開されている。
関連論文リスト
- Measuring Data Diversity for Instruction Tuning: A Systematic Analysis and A Reliable Metric [48.81957145701228]
サンプルレベルの「ノーベルティ」に基づく新しい多様性指標であるNovellSumを提案する。
シミュレーションデータと実世界のデータの両方の実験により、NovellSumは正確に多様性の変動を捉え、命令調整されたモデルの性能と0.97の相関を達成している。
論文 参考訳(メタデータ) (2025-02-24T14:20:22Z) - Exploring the Efficacy of Meta-Learning: Unveiling Superior Data Diversity Utilization of MAML Over Pre-training [1.3980986259786223]
データセットの多様性が視覚モデルの性能に影響を及ぼすことを示す。
本研究は,テストセットの精度とデータの多様性との間に正の相関関係を示す。
これらの結果は我々の仮説を支持し、形式的なデータの多様性がモデルの性能にどのように影響するかをより深く探究するための有望な方法を示す。
論文 参考訳(メタデータ) (2025-01-15T00:56:59Z) - Active Learning in Genetic Programming: Guiding Efficient Data
Collection for Symbolic Regression [2.4633342801625213]
本稿では,遺伝的プログラミングにおける能動的学習のための不確実性と多様性の計算方法について検討する。
遺伝的プログラミングにおけるモデル個体群は、不確実性指標と組み合わせたモデルアンサンブルを用いて、情報的訓練データポイントを選択するために利用することができることがわかった。
論文 参考訳(メタデータ) (2023-07-31T14:37:20Z) - DCID: Deep Canonical Information Decomposition [84.59396326810085]
本稿では,2つの1次元目標変数間で共有される信号の同定について考察する。
そこで本研究では,地中トラスラベルの存在下で使用可能な評価指標であるICMを提案する。
また、共有変数を学習するための単純かつ効果的なアプローチとして、Deep Canonical Information Decomposition (DCID)を提案する。
論文 参考訳(メタデータ) (2023-06-27T16:59:06Z) - Dataset Bias in Few-shot Image Recognition [57.25445414402398]
まず,基本カテゴリから学習した伝達可能能力の影響について検討する。
第2に、データセット構造と異なる少数ショット学習方法から、異なるデータセットのパフォーマンス差について検討する。
論文 参考訳(メタデータ) (2020-08-18T14:46:23Z) - Deep Mining External Imperfect Data for Chest X-ray Disease Screening [57.40329813850719]
我々は、外部のCXRデータセットを組み込むことで、不完全なトレーニングデータにつながると論じ、課題を提起する。
本研究は,多ラベル病分類問題を重み付き独立二分課題として分類する。
我々のフレームワークは、ドメインとラベルの相違を同時にモデル化し、対処し、優れた知識マイニング能力を実現する。
論文 参考訳(メタデータ) (2020-06-06T06:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。