論文の概要: Natural vs Balanced Distribution in Deep Learning on Whole Slide Images
for Cancer Detection
- arxiv url: http://arxiv.org/abs/2012.11684v1
- Date: Mon, 21 Dec 2020 21:18:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 06:42:57.175013
- Title: Natural vs Balanced Distribution in Deep Learning on Whole Slide Images
for Cancer Detection
- Title(参考訳): がん検出のための全スライド画像の深層学習における自然対平衡分布
- Authors: Ismat Ara Reshma, Sylvain Cussat-Blanc, Radu Tudor Ionescu, Herv\'e
Luga, Josiane Mothe
- Abstract要約: 組織像に応用した深層学習(DL)モデルにおける学習セットの自然分布と平衡分布の影響を解析した。
DLトレーニングにおいて,WSIsデータを通常の分布に維持することは,人工的に得られた平衡分布よりも偽陰性(FN)の偽陽性(FP)が少ないことを示す。
- 参考スコア(独自算出の注目度): 14.34071893713379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The class distribution of data is one of the factors that regulates the
performance of machine learning models. However, investigations on the impact
of different distributions available in the literature are very few, sometimes
absent for domain-specific tasks. In this paper, we analyze the impact of
natural and balanced distributions of the training set in deep learning (DL)
models applied on histological images, also known as whole slide images (WSIs).
WSIs are considered as the gold standard for cancer diagnosis. In recent years,
researchers have turned their attention to DL models to automate and accelerate
the diagnosis process. In the training of such DL models, filtering out the
non-regions-of-interest from the WSIs and adopting an artificial distribution
(usually, a balanced distribution) is a common trend. In our analysis, we show
that keeping the WSIs data in their usual distribution (which we call natural
distribution) for DL training produces fewer false positives (FPs) with
comparable false negatives (FNs) than the artificially-obtained balanced
distribution. We conduct an empirical comparative study with 10 random folds
for each distribution, comparing the resulting average performance levels in
terms of five different evaluation metrics. Experimental results show the
effectiveness of the natural distribution over the balanced one across all the
evaluation metrics.
- Abstract(参考訳): データのクラス分布は、機械学習モデルのパフォーマンスを規制する要因の1つである。
しかし、文献で利用可能な異なる分布の影響に関する調査はほとんどなく、時にはドメイン固有のタスクに欠けている。
本稿では,Deep Learning(DL)モデルにおける学習セットの自然分布とバランス分布の影響を組織像(全スライド画像(WSI)とも呼ばれる)に適用して解析する。
WSIはがん診断の金の標準とされている。
近年、研究者は診断プロセスの自動化と加速のためにdlモデルに注意を向けている。
このようなdlモデルのトレーニングでは、wsisから非関心領域を除外し、人工分布(通常はバランス分布)を採用することが一般的な傾向である。
本分析では,WSIsデータを通常の分布(自然分布と呼ぶ)に保持することで,FPsがFNsに匹敵する偽陰性(False negatives, FNs)が,人工的に得られた平衡分布よりも少なくなることを示す。
本研究では,各分布に対して10個のランダムな折り畳みを持つ実験的検討を行い,結果の平均性能レベルを5つの異なる評価基準で比較した。
実験の結果,全ての評価指標のバランスの取れた値に対する自然分布の有効性が示された。
関連論文リスト
- Dist Loss: Enhancing Regression in Few-Shot Region through Distribution Distance Constraint [12.757563335570865]
Dist Lossは、モデルとターゲットラベルの間の分布距離を最小限に抑えるために設計された損失関数である。
コンピュータビジョンとヘルスケアにまたがる3つのデータセットを対象に実験を行った。
論文 参考訳(メタデータ) (2024-11-20T16:17:40Z) - Diffusion Attribution Score: Evaluating Training Data Influence in Diffusion Model [22.39558434131574]
拡散モデルに対する既存のデータ帰属法は、典型的にはトレーニングサンプルの寄与を定量化する。
拡散損失の直接的利用は,拡散損失の計算により,そのような貢献を正確に表すことはできない。
本研究の目的は, 予測分布と属性スコアとの直接比較を計測し, トレーニングサンプルの重要性を分析することである。
論文 参考訳(メタデータ) (2024-10-24T10:58:17Z) - Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。
拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。
本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-02-16T16:47:21Z) - Class-Balancing Diffusion Models [57.38599989220613]
クラスバランシング拡散モデル(CBDM)は、分散調整正規化器をソリューションとして訓練する。
提案手法は,CIFAR100/CIFAR100LTデータセットで生成結果をベンチマークし,下流認識タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-30T20:00:14Z) - Analyzing the Effects of Handling Data Imbalance on Learned Features
from Medical Images by Looking Into the Models [50.537859423741644]
不均衡なデータセットでモデルをトレーニングすることは、学習問題にユニークな課題をもたらす可能性がある。
ニューラルネットワークの内部ユニットを深く調べて、データの不均衡処理が学習した機能にどのように影響するかを観察します。
論文 参考訳(メタデータ) (2022-04-04T09:38:38Z) - Accuracy on the Line: On the Strong Correlation Between
Out-of-Distribution and In-Distribution Generalization [89.73665256847858]
分布外性能は,広範囲なモデルと分布シフトに対する分布内性能と強く相関していることを示す。
具体的には,CIFAR-10 と ImageNet の変種に対する分布内分布と分布外分布性能の強い相関関係を示す。
また,CIFAR-10-Cと組織分類データセットCamelyon17-WILDSの合成分布の変化など,相関が弱いケースについても検討した。
論文 参考訳(メタデータ) (2021-07-09T19:48:23Z) - Predicting with Confidence on Unseen Distributions [90.68414180153897]
ドメイン適応と予測不確実性文学を結びつけて、挑戦的な未知分布のモデル精度を予測する。
分類器の予測における信頼度(DoC)の差は,様々な変化に対して,分類器の性能変化を推定することに成功した。
具体的には, 合成分布と自然分布の区別について検討し, その単純さにもかかわらず, DoCは分布差の定量化に優れることを示した。
論文 参考訳(メタデータ) (2021-07-07T15:50:18Z) - WILDS: A Benchmark of in-the-Wild Distribution Shifts [157.53410583509924]
分散シフトは、ワイルドにデプロイされた機械学習システムの精度を実質的に低下させることができる。
分散シフトの多様な範囲を反映した8つのベンチマークデータセットのキュレーションコレクションであるWILDSを紹介します。
本研究は, 標準訓練の結果, 分布性能よりも, 分布域外性能が有意に低下することを示す。
論文 参考訳(メタデータ) (2020-12-14T11:14:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。