論文の概要: Reliability-based cleaning of noisy training labels with inductive
conformal prediction in multi-modal biomedical data mining
- arxiv url: http://arxiv.org/abs/2309.07332v1
- Date: Wed, 13 Sep 2023 22:04:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 16:49:16.508526
- Title: Reliability-based cleaning of noisy training labels with inductive
conformal prediction in multi-modal biomedical data mining
- Title(参考訳): マルチモーダルバイオメディカルデータマイニングにおけるインダクティブコンフォメーション予測を用いた騒音トレーニングラベルの信頼性に基づくクリーニング
- Authors: Xianghao Zhan, Qinmei Xu, Yuanning Zheng, Guangming Lu, Olivier
Gevaert
- Abstract要約: 帰納的共形予測(ICP)を用いた信頼性に基づくトレーニングデータクリーニング手法を提案する。
この手法は、正確にラベル付けされたトレーニングデータの小さなセットに便乗し、ICP計算された信頼性メトリクスを活用して、ラベル付けされたデータと外れ値の修正を行う。
96例中86例(最大11.4%)、AUROCおよびAUPRCは全48例(最大23.8%、69.8%)、F1スコアは48例中47例(最大74.6%、89.0%)で有意に向上した。
- 参考スコア(独自算出の注目度): 23.880097819466602
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Accurately labeling biomedical data presents a challenge. Traditional
semi-supervised learning methods often under-utilize available unlabeled data.
To address this, we propose a novel reliability-based training data cleaning
method employing inductive conformal prediction (ICP). This method capitalizes
on a small set of accurately labeled training data and leverages ICP-calculated
reliability metrics to rectify mislabeled data and outliers within vast
quantities of noisy training data. The efficacy of the method is validated
across three classification tasks within distinct modalities: filtering
drug-induced-liver-injury (DILI) literature with title and abstract, predicting
ICU admission of COVID-19 patients through CT radiomics and electronic health
records, and subtyping breast cancer using RNA-sequencing data. Varying levels
of noise to the training labels were introduced through label permutation.
Results show significant enhancements in classification performance: accuracy
enhancement in 86 out of 96 DILI experiments (up to 11.4%), AUROC and AUPRC
enhancements in all 48 COVID-19 experiments (up to 23.8% and 69.8%), and
accuracy and macro-average F1 score improvements in 47 out of 48 RNA-sequencing
experiments (up to 74.6% and 89.0%). Our method offers the potential to
substantially boost classification performance in multi-modal biomedical
machine learning tasks. Importantly, it accomplishes this without necessitating
an excessive volume of meticulously curated training data.
- Abstract(参考訳): 正確なバイオメディカルデータのラベル付けが課題となる。
従来の半教師あり学習法は、しばしばラベルなしのデータを使用しない。
そこで本研究では,帰納的共形予測(ICP)を用いた信頼性に基づく新しいトレーニングデータクリーニング手法を提案する。
この方法は、正確にラベル付けされたトレーニングデータの小さなセットを活用し、icp計算された信頼性メトリクスを利用して、大量のノイズの多いトレーニングデータ内の誤ラベルされたデータと外れ値の修正を行う。
本手法の有効性は, 薬物誘発肝障害(DILI)文献をタイトルと抽象でフィルタリングし, CTラジオミクスおよび電子カルテによるICU入院を予測し, RNAシークエンシングデータを用いて乳癌をサブタイプする3つの分類課題において検証された。
ラベル置換によりトレーニングラベルに対するノイズレベルが導入された。
その結果、96のDILI実験のうち86の精度向上(最大11.4%)、AUROCとAUPRCの強化(最大23.8%と69.8%)、48のRNAシークエンシング実験のうち47の精度とマクロ平均F1スコアの改善(最大74.6%と89.0%)、などの分類性能が向上した。
本手法は,マルチモーダル生物医学的機械学習タスクにおける分類性能を著しく向上させる可能性がある。
重要なのは、厳密にキュレートされたトレーニングデータの過剰な量を必要とせずに、これを実現することだ。
関連論文リスト
- TRUSWorthy: Toward Clinically Applicable Deep Learning for Confident Detection of Prostate Cancer in Micro-Ultrasound [3.8208601340697386]
信頼性の高いPCa検出システムであるTRUSWorthyを提案する。
我々のパイプラインは、自己教師付き学習、トランスフォーマーを用いたマルチインスタンス学習集約、ランダムアンサンプブーピング、およびアンサンブルを統合している。
本手法は,従来の最先端のディープラーニング手法よりも精度と不確実性の校正に優れていた。
論文 参考訳(メタデータ) (2025-02-20T16:31:24Z) - Incremental Self-training for Semi-supervised Learning [56.57057576885672]
ISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。
提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-04-14T05:02:00Z) - Multimodal Pretraining of Medical Time Series and Notes [45.89025874396911]
ディープラーニングモデルは、意味のあるパターンを抽出する際の約束を示すが、広範囲なラベル付きデータが必要である。
本稿では,臨床測定値とノートのアライメントに着目し,自己指導型事前学習を用いた新しいアプローチを提案する。
病院内での死亡予測や表現型化などの下流タスクでは、データのごく一部がラベル付けされた設定において、ベースラインよりも優れています。
論文 参考訳(メタデータ) (2023-12-11T21:53:40Z) - Improving VTE Identification through Adaptive NLP Model Selection and
Clinical Expert Rule-based Classifier from Radiology Reports [2.0637891440066363]
静脈血栓塞栓症(VTE)は深部静脈血栓症(DVT)と肺塞栓症(PE)を含む重症心血管疾患である
自動的な手法は、振り返りデータコホートからVTEイベントを識別する有望な進歩を示したり、放射線学レポートからVTEイベントを識別する臨床専門家を支援したりしている。
しかし,医学テキストデータのラベル付けが限定されていること,放射線学報告の複雑さと不均一性,データ不均衡などにより,効果的にディープラーニング(DL)とNLPモデルを訓練することは困難である。
本研究では, DL法とデータ拡張, 適応型NLPモデル選択, 臨床専門家によるNLPルールに基づく新しい手法の組み合わせを提案する。
論文 参考訳(メタデータ) (2023-09-21T17:29:37Z) - Transfer Learning Based Diagnosis and Analysis of Lung Sound Aberrations [0.35232085374661276]
本研究は、聴診器と音声記録ソフトウェアによって得られた呼吸音を非侵襲的に識別する手法を開発することを目的とする。
各オーディオサンプルの視覚的表現が構築され、視覚を効果的に記述するために使用されるような方法を用いて、分類のためのリソース識別が可能である。
呼吸音響データベースは、95%の精度、88%の精度、86%のリコールスコア、81%のF1スコアを含む最先端の結果を得た。
論文 参考訳(メタデータ) (2023-03-15T04:46:57Z) - Boosting Facial Expression Recognition by A Semi-Supervised Progressive
Teacher [54.50747989860957]
本稿では,信頼度の高いFERデータセットと大規模未ラベル表現画像を有効訓練に用いるための半教師付き学習アルゴリズム,Progressive Teacher (PT)を提案する。
RAF-DB と FERPlus を用いた実験により,RAF-DB で89.57% の精度で最先端の性能を実現する手法の有効性が検証された。
論文 参考訳(メタデータ) (2022-05-28T07:47:53Z) - Unsupervised Anomaly Detection in 3D Brain MRI using Deep Learning with
impured training data [53.122045119395594]
トレーニングデータ中の不健康なサンプルが脳MRIスキャンの異常検出性能に与える影響について検討した。
AEの再構成誤差に基づいて,トレーニング中に誤ラベル付きサンプルを直接識別する手法の評価を行った。
論文 参考訳(メタデータ) (2022-04-12T13:05:18Z) - Towards Reducing Labeling Cost in Deep Object Detection [61.010693873330446]
本稿では,検知器の不確実性と頑健性の両方を考慮した,アクティブラーニングのための統一的なフレームワークを提案する。
提案手法は, 確率分布のドリフトを抑えながら, 極めて確実な予測を擬似ラベル化することができる。
論文 参考訳(メタデータ) (2021-06-22T16:53:09Z) - Uncertainty-Aware Semi-supervised Method using Large Unlabelled and
Limited Labeled COVID-19 Data [14.530328267425638]
新型コロナウイルス自動検出のための限定ラベルデータ(SCLLD)を用いた半監視分類を提案する。
提案システムは,近江病院から収集した1万個のCTスキャンを用いて訓練する。
本手法は,ラベル付きトレーニングデータが少ない場合に,Convolutional Neural Network (CNN) の教師付きトレーニングを大幅に上回っている。
論文 参考訳(メタデータ) (2021-02-12T08:20:20Z) - Deep Learning Based Classification of Unsegmented Phonocardiogram
Spectrograms Leveraging Transfer Learning [0.0]
心臓腫瘍は、聴診プロセス中に検出される最も一般的な異常です。
PCGデータセットは、PhystoNet/CinCとPASCAL(2011)の2種類があります。
本研究では,PhystoNetとPASCALデータセットの分類のための,新規で,より複雑で,比較的軽量なカスタムCNNモデルを提案する。
論文 参考訳(メタデータ) (2020-12-15T16:32:29Z) - Self-Training with Improved Regularization for Sample-Efficient Chest
X-Ray Classification [80.00316465793702]
挑戦的なシナリオで堅牢なモデリングを可能にするディープラーニングフレームワークを提案する。
その結果,85%のラベル付きデータを用いて,大規模データ設定で学習した分類器の性能に適合する予測モデルを構築することができた。
論文 参考訳(メタデータ) (2020-05-03T02:36:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。