論文の概要: Effectiveness of Automatically Curated Dataset in Thyroid Nodules Classification Algorithms Using Deep Learning
- arxiv url: http://arxiv.org/abs/2602.01020v1
- Date: Sun, 01 Feb 2026 05:13:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.534615
- Title: Effectiveness of Automatically Curated Dataset in Thyroid Nodules Classification Algorithms Using Deep Learning
- Title(参考訳): ディープラーニングを用いた甲状腺ノジュール分類アルゴリズムにおける自動キュレートデータセットの有効性
- Authors: Jichen Yang, Jikai Zhang, Benjamin Wildman-Tobriner, Maciej A. Mazurowski,
- Abstract要約: 自動計算したデータセットを使うことで、ディープラーニングアルゴリズムの性能が向上するかどうかを判定する実験を行った。
私たちは手動で注釈付きおよび自動計算されたデータセットでディープラーニングモデルをトレーニングしました。
正確なサブセットトレーニングされたディープラーニングモデルのAUCは0.689であり、完全に自動計算されたデータセットのAUCよりも著しく悪い。
- 参考スコア(独自算出の注目度): 6.717863734040864
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The diagnosis of thyroid nodule cancers commonly utilizes ultrasound images. Several studies showed that deep learning algorithms designed to classify benign and malignant thyroid nodules could match radiologists' performance. However, data availability for training deep learning models is often limited due to the significant effort required to curate such datasets. The previous study proposed a method to curate thyroid nodule datasets automatically. It was tested to have a 63% yield rate and 83% accuracy. However, the usefulness of the generated data for training deep learning models remains unknown. In this study, we conducted experiments to determine whether using a automatically-curated dataset improves deep learning algorithms' performance. We trained deep learning models on the manually annotated and automatically-curated datasets. We also trained with a smaller subset of the automatically-curated dataset that has higher accuracy to explore the optimum usage of such dataset. As a result, the deep learning model trained on the manually selected dataset has an AUC of 0.643 (95% confidence interval [CI]: 0.62, 0.66). It is significantly lower than the AUC of the 6automatically-curated dataset trained deep learning model, 0.694 (95% confidence interval [CI]: 0.67, 0.73, P < .001). The AUC of the accurate subset trained deep learning model is 0.689 (95% confidence interval [CI]: 0.66, 0.72, P > .43), which is insignificantly worse than the AUC of the full automatically-curated dataset. In conclusion, we showed that using a automatically-curated dataset can substantially increase the performance of deep learning algorithms, and it is suggested to use all the data rather than only using the accurate subset.
- Abstract(参考訳): 甲状腺結節癌の診断は超音波画像が一般的である。
いくつかの研究では、良性および悪性甲状腺結節を分類するために設計された深層学習アルゴリズムが、放射線医のパフォーマンスと一致する可能性があることが示されている。
しかしながら、ディープラーニングモデルをトレーニングするためのデータ可用性は、そのようなデータセットをキュレートするために必要な多大な労力のために制限されることが多い。
前回の研究では、甲状腺結節データセットを自動でキュレートする方法が提案された。
63%の収率と83%の精度で測定された。
しかし、深層学習モデルの訓練に生成されたデータの有用性は未だ不明である。
本研究では,自動計算したデータセットを用いることで,ディープラーニングアルゴリズムの性能が向上するかどうかを判定する実験を行った。
手動で注釈付きおよび自動計算されたデータセットでディープラーニングモデルをトレーニングしました。
また、そのようなデータセットの最適な使用法を探るために、より高精度な自動計算データセットの小さなサブセットをトレーニングしました。
その結果、手動で選択したデータセットでトレーニングされたディープラーニングモデルは、AUCが0.643(95%信頼区間[CI]:0.62,0.66)である。
自動計算した6つのディープラーニングモデルである0.694(95%信頼区間 [CI]: 0.67, 0.73, P < .001)のAUCよりも大幅に低い。
精度の高いサブセット訓練深層学習モデルのAUCは0.689(95%信頼区間[CI]: 0.66, 0.72, P > .43)であり、完全に自動計算されたデータセットのAUCよりも著しく悪い。
結論として,自動計算データセットを使用することで,ディープラーニングアルゴリズムの性能を大幅に向上させることができることを示した。
関連論文リスト
- Unsupervised Anomaly Detection for Tabular Data Using Noise Evaluation [26.312206159418903]
教師なし異常検出(UAD)は、現代のデータ分析において重要な役割を果たす。
データに含まれるノイズの量を評価することによって,新しいUAD手法を提案する。
提案手法が異常データの検出に有効であることを証明し,理論的保証を提供する。
論文 参考訳(メタデータ) (2024-12-16T05:35:58Z) - Local-to-Global Self-Supervised Representation Learning for Diabetic Retinopathy Grading [0.0]
本研究では,自己指導型学習と知識蒸留を用いた新しいハイブリッド学習モデルを提案する。
我々のアルゴリズムでは、自己教師型学習および知識蒸留モデルの中で初めて、テストデータセットがトレーニングデータセットよりも50%大きい。
類似の最先端モデルと比較すると,より高精度で効率的な表現空間が得られた。
論文 参考訳(メタデータ) (2024-10-01T15:19:16Z) - Towards Unifying Anatomy Segmentation: Automated Generation of a
Full-body CT Dataset via Knowledge Aggregation and Anatomical Guidelines [113.08940153125616]
我々は533巻のボクセルレベルのラベルを142ドル(約1万2000円)で、全身CTスキャンのデータセットを作成し、解剖学的包括的カバレッジを提供する。
提案手法はラベル集約段階において手作業によるアノテーションに依存しない。
我々はCTデータに142ドルの解剖学的構造を予測できる統一解剖学的セグメンテーションモデルをリリースする。
論文 参考訳(メタデータ) (2023-07-25T09:48:13Z) - Exploring traditional machine learning for identification of
pathological auscultations [0.39577682622066246]
各種機械学習シナリオにおいて,45例のデジタル6チャンネル聴取を行った。
目的は,正常な肺と異常な肺の音を区別することであった。
監視されていないモデルよりも一貫した優位性を示した。
論文 参考訳(メタデータ) (2022-09-01T18:03:21Z) - Deep Learning for Classification of Thyroid Nodules on Ultrasound:
Validation on an Independent Dataset [7.4674725823899175]
本研究の目的は,新しい甲状腺超音波画像データセットに事前に検証された深層学習アルゴリズムを適用することである。
このアルゴリズムと放射線技師の相対的な性能差は、超音波スキャナーの違いによって大きく影響されない。
論文 参考訳(メタデータ) (2022-07-27T19:45:41Z) - Self-supervised contrastive learning of echocardiogram videos enables
label-efficient cardiac disease diagnosis [48.64462717254158]
心エコービデオを用いた自己教師型コントラスト学習手法であるエコーCLRを開発した。
左室肥大症 (LVH) と大動脈狭窄症 (AS) の分類成績は,EchoCLR の訓練により有意に改善した。
EchoCLRは、医療ビデオの表現を学習する能力に特有であり、SSLがラベル付きデータセットからラベル効率の高い疾患分類を可能にすることを実証している。
論文 参考訳(メタデータ) (2022-07-23T19:17:26Z) - Deep learning-based COVID-19 pneumonia classification using chest CT
images: model generalizability [54.86482395312936]
深層学習(DL)分類モデルは、異なる国の3DCTデータセット上で、COVID-19陽性患者を特定するために訓練された。
我々は、データセットと72%の列車、8%の検証、20%のテストデータを組み合わせたDLベースの9つの同一分類モデルを訓練した。
複数のデータセットでトレーニングされ、トレーニングに使用されるデータセットの1つからテストセットで評価されたモデルは、よりよいパフォーマンスを示した。
論文 参考訳(メタデータ) (2021-02-18T21:14:52Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - Self-Training with Improved Regularization for Sample-Efficient Chest
X-Ray Classification [80.00316465793702]
挑戦的なシナリオで堅牢なモデリングを可能にするディープラーニングフレームワークを提案する。
その結果,85%のラベル付きデータを用いて,大規模データ設定で学習した分類器の性能に適合する予測モデルを構築することができた。
論文 参考訳(メタデータ) (2020-05-03T02:36:00Z) - Radioactive data: tracing through training [130.2266320167683]
本稿では,このデータセットに認識不能な変化を生じさせる新しい手法であるEmphradioactive dataを提案する。
訓練されたモデルにより, 放射能データの利用を検知し, 信頼度(p-値)のレベルを提供する。
提案手法はディープネットワーク最適化におけるデータ拡張とバックドア性に対して堅牢である。
論文 参考訳(メタデータ) (2020-02-03T18:41:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。