論文の概要: Dealing with Distribution Mismatch in Semi-supervised Deep Learning for
Covid-19 Detection Using Chest X-ray Images: A Novel Approach Using Feature
Densities
- arxiv url: http://arxiv.org/abs/2109.00889v1
- Date: Tue, 17 Aug 2021 00:35:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-05 12:31:38.097089
- Title: Dealing with Distribution Mismatch in Semi-supervised Deep Learning for
Covid-19 Detection Using Chest X-ray Images: A Novel Approach Using Feature
Densities
- Title(参考訳): 胸部X線画像を用いた半教師付き深層学習における分布ミスマッチの対応:特徴密度を用いた新しいアプローチ
- Authors: Saul Calderon-Ramirez, Shengxiang Yang, David Elizondo, Armaghan
Moemeni
- Abstract要約: 半教師付きディープラーニングは、大きなラベル付きデータセットの魅力的な代替手段である。
実世界の使用状況設定では、ラベル付きデータセットとは異なる分布を示す可能性がある。
これにより、ラベル付きデータセットとラベル付きデータセットの分散ミスマッチが発生します。
- 参考スコア(独自算出の注目度): 0.6882042556551609
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the context of the global coronavirus pandemic, different deep learning
solutions for infected subject detection using chest X-ray images have been
proposed. However, deep learning models usually need large labelled datasets to
be effective. Semi-supervised deep learning is an attractive alternative, where
unlabelled data is leveraged to improve the overall model's accuracy. However,
in real-world usage settings, an unlabelled dataset might present a different
distribution than the labelled dataset (i.e. the labelled dataset was sampled
from a target clinic and the unlabelled dataset from a source clinic). This
results in a distribution mismatch between the unlabelled and labelled
datasets. In this work, we assess the impact of the distribution mismatch
between the labelled and the unlabelled datasets, for a semi-supervised model
trained with chest X-ray images, for COVID-19 detection. Under strong
distribution mismatch conditions, we found an accuracy hit of almost 30\%,
suggesting that the unlabelled dataset distribution has a strong influence in
the behaviour of the model. Therefore, we propose a straightforward approach to
diminish the impact of such distribution mismatch. Our proposed method uses a
density approximation of the feature space. It is built upon the target dataset
to filter out the observations in the source unlabelled dataset that might harm
the accuracy of the semi-supervised model. It assumes that a small labelled
source dataset is available together with a larger source unlabelled dataset.
Our proposed method does not require any model training, it is simple and
computationally cheap. We compare our proposed method against two popular state
of the art out-of-distribution data detectors, which are also cheap and simple
to implement. In our tests, our method yielded accuracy gains of up to 32\%,
when compared to the previous state of the art methods.
- Abstract(参考訳): 新型コロナウイルスの感染拡大に伴い、胸部X線画像を用いた被検体検出のための異なる深層学習ソリューションが提案されている。
しかし、ディープラーニングモデルは通常、有効にするために大きなラベル付きデータセットが必要です。
半教師付きディープラーニングは魅力的な選択肢であり、ラベルのないデータをモデル全体の精度を改善するために活用する。
しかし、実際の使用状況では、ラベル付きデータセット(すなわち、ラベル付きデータセット)とは異なる分布を示す可能性がある。
ラベル付きデータセットは、ターゲットクリニックとソースクリニックの未ラベルデータセットからサンプリングされました。
これにより、ラベルなしデータセットとラベル付きデータセットの分散ミスマッチが発生する。
本研究では,胸部X線画像を用いた半教師付きモデルを用いて,ラベル付きデータセットと非ラベル付きデータセットとの分布ミスマッチの影響を評価する。
強い分布ミスマッチ条件下では,約30%の精度で精度が低下し,乱れのないデータセット分布がモデルの挙動に強い影響を与えることが示唆された。
そこで,このような分布ミスマッチの影響を低減するための簡単なアプローチを提案する。
提案手法は特徴空間の密度近似を用いる。
ターゲットデータセット上に構築され、半教師付きモデルの精度を損なう可能性のあるソース未ラベルデータセットの観測をフィルタリングする。
これは、小さなラベル付きソースデータセットと、より大きなソース未ラベルデータセットが利用できると仮定する。
提案手法は,モデル学習を必要とせず,単純で計算量的に安価である。
提案手法を,より安価で実装が容易な2種類の分散型データ検出器と比較した。
本試験では, 従来手法と比較して, 精度が32\%まで向上した。
関連論文リスト
- Continuous Contrastive Learning for Long-Tailed Semi-Supervised Recognition [50.61991746981703]
現在の最先端のLTSSLアプローチは、大規模な未ラベルデータに対して高品質な擬似ラベルに依存している。
本稿では,長期学習における様々な提案を統一する新しい確率的枠組みを提案する。
我々は、信頼度とスムーズな擬似ラベルを用いて、我々のフレームワークをラベルなしデータに拡張する、連続的コントラスト学習手法であるCCLを導入する。
論文 参考訳(メタデータ) (2024-10-08T15:06:10Z) - Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。
混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。
UE識別のための反復フィルタリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T13:26:13Z) - Restricted Generative Projection for One-Class Classification and
Anomaly Detection [31.173234437065464]
トレーニングデータの未知分布(正規分布)を既知の目標分布に変換するためのマッピングを学習する。
シンプルさは、配布から簡単にサンプルを採取できるようにすることです。
コンパクト性は、正規データと異常データとの判定境界が明確であることを保証することである。
その情報性は、変換されたデータが元のデータの重要な情報を確実に保持することである。
論文 参考訳(メタデータ) (2023-07-09T04:59:10Z) - Improving Semi-supervised Deep Learning by using Automatic Thresholding
to Deal with Out of Distribution Data for COVID-19 Detection using Chest
X-ray Images [0.0]
ラベルなしデータセットにおける分布外データをフィルタリングする自動しきい値抽出法を提案する。
胸部X線画像を用いた新型コロナウイルス検出装置の訓練において,2つの簡単な自動しきい値設定法を検証した。
論文 参考訳(メタデータ) (2022-11-03T20:56:45Z) - Fake It Till You Make It: Near-Distribution Novelty Detection by
Score-Based Generative Models [54.182955830194445]
既存のモデルは、いわゆる"近く分布"設定で失敗するか、劇的な低下に直面します。
本稿では, スコアに基づく生成モデルを用いて, 合成近分布異常データを生成することを提案する。
本手法は,9つのノベルティ検出ベンチマークにおいて,近分布ノベルティ検出を6%改善し,最先端のノベルティ検出を1%から5%パスする。
論文 参考訳(メタデータ) (2022-05-28T02:02:53Z) - Semi-supervised Deep Learning for Image Classification with Distribution
Mismatch: A Survey [1.5469452301122175]
ディープラーニングモデルは、予測モデルをトレーニングするためにラベル付き観測の豊富な部分に依存します。
ラベル付きデータ観測を収集することは高価であり、ディープラーニングモデルの使用は理想的ではない。
多くの状況では、異なる非競合データソースが利用可能である。
これにより、ラベル付きデータセットと非ラベル付きデータセットの間にかなりの分散ミスマッチが発生するリスクが生じる。
論文 参考訳(メタデータ) (2022-03-01T02:46:00Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Efficient remedies for outlier detection with variational autoencoders [8.80692072928023]
深層生成モデルによって計算される類似度は、ラベルなしデータによる外れ値検出の候補メトリックである。
理論的に定位された補正は、VAE推定値による鍵バイアスを容易に改善することを示す。
また,VAEのアンサンブル上で計算される確率の分散により,ロバストな外乱検出が可能となることを示す。
論文 参考訳(メタデータ) (2021-08-19T16:00:58Z) - Chest x-ray automated triage: a semiologic approach designed for
clinical implementation, exploiting different types of labels through a
combination of four Deep Learning architectures [83.48996461770017]
本研究では,異なる畳み込みアーキテクチャの後期融合に基づく深層学習手法を提案する。
公開胸部x線画像と機関アーカイブを組み合わせたトレーニングデータセットを4つ構築した。
4つの異なるディープラーニングアーキテクチャをトレーニングし、それらのアウトプットとレイトフュージョン戦略を組み合わせることで、統一されたツールを得ました。
論文 参考訳(メタデータ) (2020-12-23T14:38:35Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z) - Correcting Data Imbalance for Semi-Supervised Covid-19 Detection Using
X-ray Chest Images [4.1950566803514935]
半教師付きディープラーニングアーキテクチャMixMatchの性能評価を行った。
新しいデータセットは、コスタリカの成人患者の胸部X線画像からなる検証データセットに含まれる。
論文 参考訳(メタデータ) (2020-08-19T15:16:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。