論文の概要: Beyond Size and Class Balance: Alpha as a New Dataset Quality Metric for Deep Learning
- arxiv url: http://arxiv.org/abs/2407.15724v2
- Date: Wed, 31 Jul 2024 21:20:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-02 18:59:12.633802
- Title: Beyond Size and Class Balance: Alpha as a New Dataset Quality Metric for Deep Learning
- Title(参考訳): サイズとクラスバランスを超えて - ディープラーニングのための新しいデータセット品質指標としてのAlpha
- Authors: Josiah Couch, Rima Arnaout, Ramy Arnaout,
- Abstract要約: 画像分類タスクの性能向上には多様なセットが必要である。
最大のサイズを持つサブセットは、最大のサイズを持つサブセットよりも最大16%の規模で実行された。
本稿では,医用画像の深層学習性能を向上させる手段として,$Aの改善を最大化することを提案する。
- 参考スコア(独自算出の注目度): 1.2289361708127877
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In deep learning, achieving high performance on image classification tasks requires diverse training sets. However, the current best practice$\unicode{x2013}$maximizing dataset size and class balance$\unicode{x2013}$does not guarantee dataset diversity. We hypothesized that, for a given model architecture, model performance can be improved by maximizing diversity more directly. To test this hypothesis, we introduce a comprehensive framework of diversity measures from ecology that generalizes familiar quantities like Shannon entropy by accounting for similarities among images. (Size and class balance emerge as special cases.) Analyzing thousands of subsets from seven medical datasets showed that the best correlates of performance were not size or class balance but $A$$\unicode{x2013}$"big alpha"$\unicode{x2013}$a set of generalized entropy measures interpreted as the effective number of image-class pairs in the dataset, after accounting for image similarities. One of these, $A_0$, explained 67% of the variance in balanced accuracy, vs. 54% for class balance and just 39% for size. The best pair of measures was size-plus-$A_1$ (79%), which outperformed size-plus-class-balance (74%). Subsets with the largest $A_0$ performed up to 16% better than those with the largest size (median improvement, 8%). We propose maximizing $A$ as a way to improve deep learning performance in medical imaging.
- Abstract(参考訳): ディープラーニングでは、画像分類タスクで高いパフォーマンスを達成するには、多様なトレーニングセットが必要である。
しかし、現在のベストプラクティスである$\unicode{x2013}$maximizing dataset size and class balance$\unicode{x2013}$does not guarantee dataset diversity。
我々は、与えられたモデルアーキテクチャーに対して、より直接的に多様性を最大化することでモデル性能を改善することができると仮定した。
この仮説を検証するために、画像間の類似性を考慮し、シャノンエントロピーのようなよく知られた量を一般化する生態学からの多様性測定の包括的枠組みを導入する。
(特例として規模・階級バランスが出現する。)
7つの医学データセットから数千のサブセットを分析したところ、パフォーマンスの最良の相関はサイズやクラスバランスではなく、$A$$\unicode{x2013}$"big alpha"$\unicode{x2013}$a 一般化エントロピーのセットは、画像類似性を考慮して、データセット内のイメージクラスのペアの有効数として解釈された。
これらのうちの1つ、$A_0$は、バランスの取れた精度のばらつきの67%、クラスバランスの54%、サイズがわずか39%である。
最良の尺度はサイズプラスA_1$(79%)であり、サイズプラスクラスバランス(74%)を上回った。
最大の$A_0$のサブセットは、最大サイズのサブセットよりも16%向上した(中間改善、8%)。
本稿では,医療画像の深層学習性能向上のための手段として,$A$の最大化を提案する。
関連論文リスト
- Data Augmentation for Image Classification using Generative AI [8.74488498507946]
データ拡張はデータセットのサイズを拡大するための有望なソリューションである。
最近のアプローチでは、生成AIモデルを使用してデータセットの多様性を改善している。
我々はAGA(Automated Generative Data Augmentation)を提案する。
論文 参考訳(メタデータ) (2024-08-31T21:16:43Z) - Scaling Up Deep Clustering Methods Beyond ImageNet-1K [0.9437165725355702]
本研究では,大規模ベンチマークにおける機能ベースのディープクラスタリング手法の性能について検討する。
我々の実験分析によると、機能ベースの$k$-meansはバランスの取れたデータセットで不公平に評価されることが多い。
ディープクラスタリングメソッドは、ほとんどの大規模ベンチマークで$k$-meansを上回っている。
論文 参考訳(メタデータ) (2024-06-03T11:13:27Z) - CLIP the Bias: How Useful is Balancing Data in Multimodal Learning? [72.19502317793133]
比較言語画像事前学習(CLIP)におけるバイアス軽減のためのデータバランスの有効性について検討する。
表現バイアスと相関バイアスの両方を低減するために,Multi-Modal Moment Matching (M4) と呼ばれる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-07T14:43:17Z) - Understanding the Detrimental Class-level Effects of Data Augmentation [63.1733767714073]
最適な平均精度を達成するには、ImageNetで最大20%の個々のクラスの精度を著しく損なうコストがかかる。
本稿では,DAがクラスレベルの学習力学とどのように相互作用するかを理解するためのフレームワークを提案する。
そこで本研究では, クラス条件拡張戦略により, 負の影響を受けるクラスの性能が向上することを示す。
論文 参考訳(メタデータ) (2023-12-07T18:37:43Z) - SSL-CPCD: Self-supervised learning with composite pretext-class
discrimination for improved generalisability in endoscopic image analysis [3.1542695050861544]
深層学習に基づく教師付き手法は医用画像解析において広く普及している。
大量のトレーニングデータと、目に見えないデータセットに対する一般的な問題に直面する必要がある。
本稿では,加法的角マージンを用いたパッチレベルのインスタンスグループ識別とクラス間変動のペナル化について検討する。
論文 参考訳(メタデータ) (2023-05-31T21:28:08Z) - Spuriosity Rankings: Sorting Data to Measure and Mitigate Biases [62.54519787811138]
本稿では,突発的手がかりに依存したモデルバイアスを簡易かつ効果的に測定・緩和する手法を提案する。
我々は,解釈可能なネットワークの深部神経的特徴をベースとして,それらのクラス内の画像のランク付けを行う。
以上の結果から,素早い特徴依存によるモデルバイアスは,モデルがどのようにトレーニングされたかよりも,モデルがトレーニングされていることの影響がはるかに大きいことが示唆された。
論文 参考訳(メタデータ) (2022-12-05T23:15:43Z) - Information Gain Sampling for Active Learning in Medical Image
Classification [3.1619162190378787]
本研究は,ラベル付け対象プールからの最適な画像選択を誘導する情報理論のアクティブラーニングフレームワークを提案する。
2つの異なる医用画像分類データセットで実験を行う。
論文 参考訳(メタデータ) (2022-08-01T16:25:53Z) - Multi-dataset Pretraining: A Unified Model for Semantic Segmentation [97.61605021985062]
我々は、異なるデータセットの断片化アノテーションを最大限に活用するために、マルチデータセット事前訓練と呼ばれる統合フレームワークを提案する。
これは、複数のデータセットに対して提案されたピクセルからプロトタイプへのコントラスト損失を通じてネットワークを事前トレーニングすることで実現される。
異なるデータセットからの画像とクラス間の関係をより良くモデル化するために、クロスデータセットの混合によりピクセルレベルの埋め込みを拡張する。
論文 参考訳(メタデータ) (2021-06-08T06:13:11Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z) - Background Splitting: Finding Rare Classes in a Sea of Background [55.03789745276442]
我々は,少数の稀なカテゴリの画像分類のための,高精度な深層モデルの訓練という現実的な問題に焦点をあてる。
これらのシナリオでは、ほとんどの画像はデータセットの背景カテゴリに属します(データセットの95%は背景です)。
非バランスなデータセットをトレーニングするための標準的な微調整アプローチと最先端アプローチの両方が、この極端な不均衡の存在下で正確な深層モデルを生成していないことを実証する。
論文 参考訳(メタデータ) (2020-08-28T23:05:15Z) - Reinforced active learning for image segmentation [34.096237671643145]
深部強化学習(RL)に基づく意味的セグメンテーションのための新しいアクティブラーニング戦略を提案する。
エージェントは、ラベルなしデータのプールからラベル付けされる小さな情報領域(画像全体とは対照的に)のサブセットを選択するポリシーを学ぶ。
本手法では, 意味的セグメンテーション問題の大規模性質に適応して, 能動的学習のための深部Q-network (DQN) の定式化を新たに提案する。
論文 参考訳(メタデータ) (2020-02-16T14:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。