論文の概要: Bayesian analysis of the prevalence bias: learning and predicting from
imbalanced data
- arxiv url: http://arxiv.org/abs/2108.00250v1
- Date: Sat, 31 Jul 2021 14:36:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-03 15:25:16.900281
- Title: Bayesian analysis of the prevalence bias: learning and predicting from
imbalanced data
- Title(参考訳): 有病率バイアスのベイズ解析--不均衡データからの学習と予測
- Authors: Loic Le Folgoc and Vasileios Baltatzis and Amir Alansary and Sujal
Desai and Anand Devaraj and Sam Ellis and Octavio E. Martinez Manzanera and
Fahdi Kanavati and Arjun Nair and Julia Schnabel and Ben Glocker
- Abstract要約: 本稿では,モデル学習のための理論的および計算的枠組みと,有病率バイアスの存在下での予測について述べる。
原則的なトレーニング損失の代替として,要約曲線から操作点を選択することで,テスト時の手順を補完するものだ。
バックプロパゲーションを用いた(深い)学習の現在のパラダイムにシームレスに統合され、ベイズモデルと自然に結合する。
- 参考スコア(独自算出の注目度): 10.659348599372944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Datasets are rarely a realistic approximation of the target population. Say,
prevalence is misrepresented, image quality is above clinical standards, etc.
This mismatch is known as sampling bias. Sampling biases are a major hindrance
for machine learning models. They cause significant gaps between model
performance in the lab and in the real world. Our work is a solution to
prevalence bias. Prevalence bias is the discrepancy between the prevalence of a
pathology and its sampling rate in the training dataset, introduced upon
collecting data or due to the practioner rebalancing the training batches. This
paper lays the theoretical and computational framework for training models, and
for prediction, in the presence of prevalence bias. Concretely a bias-corrected
loss function, as well as bias-corrected predictive rules, are derived under
the principles of Bayesian risk minimization. The loss exhibits a direct
connection to the information gain. It offers a principled alternative to
heuristic training losses and complements test-time procedures based on
selecting an operating point from summary curves. It integrates seamlessly in
the current paradigm of (deep) learning using stochastic backpropagation and
naturally with Bayesian models.
- Abstract(参考訳): データセットがターゲット人口の現実的な近似であることは滅多にない。
例えば、有病率は誤って表現され、画像の品質は臨床基準以上である。
このミスマッチはサンプリングバイアスとして知られている。
サンプリングバイアスは、機械学習モデルにとって大きな障害である。
それらは、実験室と現実世界のモデルパフォーマンスの間に大きなギャップをもたらします。
私たちの仕事は流行バイアスの解決策です。
有病率バイアスは、データ収集時に導入した訓練データセットにおける病理の感染率とサンプリング率との差であり、練習バッチの再バランスによるものである。
本稿では,モデル学習のための理論的および計算的枠組みと,有病率バイアスの存在下での予測について述べる。
具体的には、バイアス補正損失関数とバイアス補正予測規則はベイズリスク最小化の原理に基づいて導出される。
損失は、情報ゲインに直接関連している。
ヒューリスティックなトレーニング損失に代わる原則的な代替手段を提供し、サマリー曲線から操作点を選択することでテスト時間手順を補完する。
確率的バックプロパゲーションを用いた(深い)学習の現在のパラダイムにシームレスに統合され、ベイズモデルと自然に結合する。
関連論文リスト
- Model Debiasing by Learnable Data Augmentation [19.625915578646758]
本稿では,トレーニングを正規化可能なデータ拡張戦略を備えた,新しい2段階学習パイプラインを提案する。
合成および現実的なバイアス付きデータセットの実験は、最先端の分類精度を示し、競合する手法より優れている。
論文 参考訳(メタデータ) (2024-08-09T09:19:59Z) - Echoes: Unsupervised Debiasing via Pseudo-bias Labeling in an Echo
Chamber [17.034228910493056]
本稿では,既存のバイアスモデルがトレーニングデータにおけるバイアス強調サンプルに過度に適合していることを明らかにする実験的検討を行った。
本研究では、バイアスモデルとターゲットモデルを異なる戦略で訓練するEchoesという、単純で効果的な手法を提案する。
提案手法は,既存の合成データセットと実世界のデータセットのベースラインと比較して,優れたデバイアス化結果が得られる。
論文 参考訳(メタデータ) (2023-05-06T13:13:18Z) - Provable Detection of Propagating Sampling Bias in Prediction Models [1.7709344190822935]
本稿では,データバイアスの特定の形式である差分サンプリングバイアスが,データステージから予測ステージにどのように伝播するかを理論的に分析する。
妥当な仮定の下では、モデル予測におけるバイアスの量が、データの差分サンプリングバイアスの量の関数としてどのように変化するかを定量化する。
仮定が緩和された場合でも理論的な結果が実際に成り立つことを実証する。
論文 参考訳(メタデータ) (2023-02-13T23:39:35Z) - Pseudo Bias-Balanced Learning for Debiased Chest X-ray Classification [57.53567756716656]
本研究では, バイアスラベルを正確に把握せず, 脱バイアス胸部X線診断モデルの開発について検討した。
本稿では,まずサンプルごとのバイアスラベルをキャプチャし,予測する新しいアルゴリズム,擬似バイアスバランス学習を提案する。
提案手法は他の最先端手法よりも一貫した改善を実現した。
論文 参考訳(メタデータ) (2022-03-18T11:02:18Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Increasing Fairness in Predictions Using Bias Parity Score Based Loss
Function Regularization [0.8594140167290099]
従来のバイナリクロスエントロピーに基づく精度損失と合わせて使用する正則化成分の公平性向上のファミリを導入する。
我々は、人口統計に基づく成人所得データセットと同様に、再分配予測タスクの文脈に展開する。
論文 参考訳(メタデータ) (2021-11-05T17:42:33Z) - Learning from Failure: Training Debiased Classifier from Biased
Classifier [76.52804102765931]
ニューラルネットワークは、所望の知識よりも学習が簡単である場合にのみ、素早い相関に依存することを学習していることを示す。
本稿では,一対のニューラルネットワークを同時にトレーニングすることで,障害に基づくデバイアス化手法を提案する。
本手法は,合成データセットと実世界のデータセットの両方において,各種バイアスに対するネットワークのトレーニングを大幅に改善する。
論文 参考訳(メタデータ) (2020-07-06T07:20:29Z) - Bayesian Sampling Bias Correction: Training with the Right Loss Function [0.0]
我々は、サンプリングバイアスの存在下でモデルを訓練するために損失関数の族を導出する。
例えば、病理の頻度がトレーニングデータセットのサンプリングレートと異なる場合や、マシンラーニングの実践者がトレーニングデータセットを再バランスする場合などだ。
論文 参考訳(メタデータ) (2020-06-24T15:10:43Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Balance-Subsampled Stable Prediction [55.13512328954456]
本稿では, 分数分解設計理論に基づく新しいバランスサブサンプル安定予測法を提案する。
設計理論解析により,提案手法は分布シフトによって誘導される予測器間の共起効果を低減できることを示した。
合成および実世界の両方のデータセットに関する数値実験により、BSSPアルゴリズムは未知のテストデータ間で安定した予測を行うためのベースライン法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2020-06-08T07:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。