論文の概要: When More is Less: Incorporating Additional Datasets Can Hurt
Performance By Introducing Spurious Correlations
- arxiv url: http://arxiv.org/abs/2308.04431v1
- Date: Tue, 8 Aug 2023 17:58:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 11:49:19.097823
- Title: When More is Less: Incorporating Additional Datasets Can Hurt
Performance By Introducing Spurious Correlations
- Title(参考訳): 追加データセットを組み込むことで、余分な相関を導入すればパフォーマンスを損なうことができる
- Authors: Rhys Compton, Lily Zhang, Aahlad Puli, Rajesh Ranganath
- Abstract要約: その結果、2つの病院のデータに基づいてトレーニングされたモデルでは、1つの病院のデータでトレーニングされたモデルよりも、両方の病院でグループ精度が劣っていることがわかった。
この現象は, 病院固有のイメージアーティファクトが原因で, 疾患と病院との間に生じる急激な相関関係から生じると説明される。
- 参考スコア(独自算出の注目度): 16.782625445546273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In machine learning, incorporating more data is often seen as a reliable
strategy for improving model performance; this work challenges that notion by
demonstrating that the addition of external datasets in many cases can hurt the
resulting model's performance. In a large-scale empirical study across
combinations of four different open-source chest x-ray datasets and 9 different
labels, we demonstrate that in 43% of settings, a model trained on data from
two hospitals has poorer worst group accuracy over both hospitals than a model
trained on just a single hospital's data. This surprising result occurs even
though the added hospital makes the training distribution more similar to the
test distribution. We explain that this phenomenon arises from the spurious
correlation that emerges between the disease and hospital, due to
hospital-specific image artifacts. We highlight the trade-off one encounters
when training on multiple datasets, between the obvious benefit of additional
data and insidious cost of the introduced spurious correlation. In some cases,
balancing the dataset can remove the spurious correlation and improve
performance, but it is not always an effective strategy. We contextualize our
results within the literature on spurious correlations to help explain these
outcomes. Our experiments underscore the importance of exercising caution when
selecting training data for machine learning models, especially in settings
where there is a risk of spurious correlations such as with medical imaging.
The risks outlined highlight the need for careful data selection and model
evaluation in future research and practice.
- Abstract(参考訳): この作業は、多くの場合、外部データセットの追加がモデルのパフォーマンスを損なう可能性があることを示すことで、その概念に挑戦する。
4つの異なるオープンソースの胸部x線データセットと9つの異なるラベルの組み合わせを用いた大規模実証研究において,2つの病院のデータに基づいてトレーニングされたモデルでは,単一の病院のデータでトレーニングされたモデルよりも,2つの病院でトレーニングされたモデルの精度が最悪であることが示されている。
この驚くべき結果は、追加の病院がトレーニング分布をテスト分布とよりよく似ているとしても起こる。
この現象は, 病院固有のイメージアーティファクトが原因で, 疾患と病院との間に生じる急激な相関関係から生じると説明される。
複数のデータセットでトレーニングする際のトレードオフ、追加データの明らかなメリットと、導入した急激な相関の差し迫ったコストを強調します。
場合によっては、データセットのバランスをとることで、スプリアス相関を取り除き、パフォーマンスを向上させることができるが、必ずしも効果的な戦略ではない。
我々は、これらの結果を説明するのに役立つ、散発的な相関に関する文献内の結果の文脈化を行う。
本実験は,機械学習モデルにおけるトレーニングデータの選択において,特に医用画像などと相関する危険のある場面において,注意を喚起することの重要性を強調する。
リスクの概要は、将来の研究と実践において注意深いデータ選択とモデル評価の必要性を浮き彫りにしている。
関連論文リスト
- Measuring and Improving Attentiveness to Partial Inputs with Counterfactuals [91.59906995214209]
我々は,新しい評価手法であるCAT(Facterfactual Attentiveness Test)を提案する。
CATは、入力の一部を別の例から別の例に置き換えることで、予測を変更する注意深いモデルを期待することで、反事実を使用する。
実験データの精度が向上する一方, GPT3 は実演回数の増加により注意力の低下がみられた。
論文 参考訳(メタデータ) (2023-11-16T06:27:35Z) - Unlearning Spurious Correlations in Chest X-ray Classification [4.039245878626345]
我々は、Covid-19胸部X線データセットを用いてディープラーニングモデルをトレーニングする。
このデータセットが、意図しない境界領域によって、どのようにして急激な相関をもたらすかを示す。
XBLは、モデル説明を利用して、対話的に引き起こされる突発的相関を利用して、解釈可能性を超えたディープラーニングアプローチである。
論文 参考訳(メタデータ) (2023-08-02T12:59:10Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Even Small Correlation and Diversity Shifts Pose Dataset-Bias Issues [19.4921353136871]
実験サンプルがトレーニング中に見つからないパターンを示す場合の多様性シフトと、テストデータが観察された不変性と急激な特徴の異なる相関を示す場合の相関シフトの2種類について検討した。
そこで我々は,両タイプのシフトをデータセットを用いて分析し,制御可能な方法で共存する統合プロトコルを提案する。
論文 参考訳(メタデータ) (2023-05-09T23:40:23Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Mixture Model Framework for Traumatic Brain Injury Prognosis Using
Heterogeneous Clinical and Outcome Data [3.7363119896212478]
TBIに関連する大きな異種データ型をモデル化する手法を開発する。
このモデルは、人口統計、血液ベースのバイオマーカー、画像検出など、さまざまなデータタイプを含むデータセットでトレーニングされます。
教師なしの学習環境で患者を別々のグループに成層するために使用されます。
論文 参考訳(メタデータ) (2020-12-22T19:31:03Z) - Deep Mining External Imperfect Data for Chest X-ray Disease Screening [57.40329813850719]
我々は、外部のCXRデータセットを組み込むことで、不完全なトレーニングデータにつながると論じ、課題を提起する。
本研究は,多ラベル病分類問題を重み付き独立二分課題として分類する。
我々のフレームワークは、ドメインとラベルの相違を同時にモデル化し、対処し、優れた知識マイニング能力を実現する。
論文 参考訳(メタデータ) (2020-06-06T06:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。