論文の概要: Large Language Model-Based Uncertainty-Adjusted Label Extraction for Artificial Intelligence Model Development in Upper Extremity Radiography
- arxiv url: http://arxiv.org/abs/2510.05664v1
- Date: Tue, 07 Oct 2025 08:19:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.155369
- Title: Large Language Model-Based Uncertainty-Adjusted Label Extraction for Artificial Intelligence Model Development in Upper Extremity Radiography
- Title(参考訳): 大規模言語モデルに基づく不確かさ調整ラベル抽出による上肢X線撮影における人工知能モデル開発
- Authors: Hanna Kreutzer, Anne-Sophie Caselitz, Thomas Dratsch, Daniel Pinto dos Santos, Christiane Kuhl, Daniel Truhn, Sven Nebelung,
- Abstract要約: GPT-4oは、画像所見を現在(真)、不在(偽)、不確か(不確か)として示すことによって、構造化テンプレートを埋める
ラベルの不確実性の影響を評価するため、トレーニングと検証セットの「不確実」ラベルは、自動的に「真」または「偽」に再割り当てされる。
- 参考スコア(独自算出の注目度): 1.1994929325702173
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Objectives: To evaluate GPT-4o's ability to extract diagnostic labels (with uncertainty) from free-text radiology reports and to test how these labels affect multi-label image classification of musculoskeletal radiographs. Methods: This retrospective study included radiography series of the clavicle (n=1,170), elbow (n=3,755), and thumb (n=1,978). After anonymization, GPT-4o filled out structured templates by indicating imaging findings as present ("true"), absent ("false"), or "uncertain." To assess the impact of label uncertainty, "uncertain" labels of the training and validation sets were automatically reassigned to "true" (inclusive) or "false" (exclusive). Label-image-pairs were used for multi-label classification using ResNet50. Label extraction accuracy was manually verified on internal (clavicle: n=233, elbow: n=745, thumb: n=393) and external test sets (n=300 for each). Performance was assessed using macro-averaged receiver operating characteristic (ROC) area under the curve (AUC), precision recall curves, sensitivity, specificity, and accuracy. AUCs were compared with the DeLong test. Results: Automatic extraction was correct in 98.6% (60,618 of 61,488) of labels in the test sets. Across anatomic regions, label-based model training yielded competitive performance measured by macro-averaged AUC values for inclusive (e.g., elbow: AUC=0.80 [range, 0.62-0.87]) and exclusive models (elbow: AUC=0.80 [range, 0.61-0.88]). Models generalized well on external datasets (elbow [inclusive]: AUC=0.79 [range, 0.61-0.87]; elbow [exclusive]: AUC=0.79 [range, 0.63-0.89]). No significant differences were observed across labeling strategies or datasets (p>=0.15). Conclusion: GPT-4o extracted labels from radiologic reports to train competitive multi-label classification models with high accuracy. Detected uncertainty in the radiologic reports did not influence the performance of these models.
- Abstract(参考訳): 目的: GPT-4o の診断ラベル(不確実性を伴う)を自由テキストラジオグラフィーレポートから抽出し,これらのラベルが筋骨格X線撮影のマルチラベル画像分類にどう影響するかを検証すること。
方法: この回顧調査では, 鎖骨(n=1,170), 肘(n=3,755), 親指(n=1,978。
匿名化後、GPT-4oは画像所見を現在(true)、不在(false)、不確か(uncertain)として示すことで構造化テンプレートを埋めた。
ラベルの不確実性の影響を評価するため、トレーニングと検証セットの"不確か"ラベルは、自動的に"true"(包括的)または"false"(排他的)に再割り当てされた。
ラベル・イメージ・ペアはResNet50を用いたマルチラベル分類に使用された。
ラベル抽出精度は内部(クラビクル: n=233, 肘: n=745, 親指: n=393)と外部テストセット(それぞれn=300)で手動で検証した。
曲線(AUC)下におけるマクロ平均受信動作特性(ROC)領域,高精度リコール曲線,感度,特異性,精度を用いて評価を行った。
AUCはDeLongテストと比較された。
結果: テストセット中のラベルの98.6%(61,488点中60,618点)で自動抽出が正しかった。
AUC=0.80 [range, 0.62-0.87])と排他的モデル(elbow: AUC=0.80 [range, 0.61-0.88])のマクロ平均AUC値によって測定された競争性能をラベルベースモデルで評価した。
モデルは外部データセット(elbow [inclusive]: AUC=0.79 [range, 0.61-0.87]; elbow [exclusive]: AUC=0.79 [range, 0.63-0.89])でよく一般化された。
ラベル付け戦略やデータセット間で有意な差は見られなかった(p>=0.15。
結論: GPT-4o は放射線学的報告からラベルを抽出し,高い精度で競合するマルチラベル分類モデルを訓練した。
放射線学的報告の不確実性の検出はこれらのモデルの性能に影響を与えなかった。
関連論文リスト
- Can Modern NLP Systems Reliably Annotate Chest Radiography Exams? A Pre-Purchase Evaluation and Comparative Study of Solutions from AWS, Google, Azure, John Snow Labs, and Open-Source Models on an Independent Pediatric Dataset [0.0]
本研究では,エンティティ抽出とアサーション検出のための4つの臨床NLPシステムの比較を行った。
CheXpertとCheXbertの2つの専用の胸部X線写真レポートラベルが同じタスクで評価された。
小児科大病院における95,008例のCXR報告について検討した。
論文 参考訳(メタデータ) (2025-05-29T03:16:18Z) - Improving Image Classification of Knee Radiographs: An Automated Image
Labeling Approach [0.3258500021481664]
本研究の目的は, 画像分類を改良し, 正常な膝画像の異常の有無を識別する自動ラベリング手法を開発することである。
自動ラベル付けはラベル付きデータの小さなセットでトレーニングされ、ラベルなしデータのもっと大きなセットを自動的にラベル付けする。
以上の結果から,自動ラベリング手法は,膝の診断における画像分類性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2023-09-06T03:26:24Z) - Attention-based Saliency Maps Improve Interpretability of Pneumothorax
Classification [52.77024349608834]
視覚変換器(ViT)の胸部X線撮影(CXR)分類性能と注意ベース唾液の解釈可能性について検討する。
ViTは、CheXpert、Chest X-Ray 14、MIMIC CXR、VinBigDataの4つの公開データセットを用いて、肺疾患分類のために微調整された。
ViTsは最先端のCNNと比べてCXR分類AUCに匹敵するものであった。
論文 参考訳(メタデータ) (2023-03-03T12:05:41Z) - Learning to diagnose common thorax diseases on chest radiographs from
radiology reports in Vietnamese [0.33598755777055367]
ベトナムの放射線学報告から情報を抽出し,胸部X線(CXR)画像の正確なラベルを提供するデータ収集・アノテーションパイプラインを提案する。
このことは、ベトナムの放射線学者や臨床医が、国によって異なる可能性のある内因性診断カテゴリと密接に一致したデータに注釈を付けることで、ベトナムの放射線技師や臨床医に利益をもたらす可能性がある。
論文 参考訳(メタデータ) (2022-09-11T06:06:03Z) - Less is More: Adaptive Curriculum Learning for Thyroid Nodule Diagnosis [50.231954872304314]
不整合ラベルによるサンプルの発見と破棄を適応的に行うAdaptive Curriculum Learningフレームワークを提案する。
また、TNCD: Thyroid Nodule Classification データセットも提供します。
論文 参考訳(メタデータ) (2022-07-02T11:50:02Z) - Report-Guided Automatic Lesion Annotation for Deep Learning-Based
Prostate Cancer Detection in bpMRI [0.0]
臨床報告に基づく自動アノテーションは手動ラベル付けのボトルネックを克服する可能性がある。
臨床的に有意な前立腺癌(csPCa)のアノテーションが得られた。
自動ラベル付け試験によるトレーニングセットの強化は、患者ベースの診断領域を改善した。
論文 参考訳(メタデータ) (2021-12-09T15:35:32Z) - Semi-supervised learning for generalizable intracranial hemorrhage
detection and segmentation [0.0]
本研究は頭蓋内出血の検出・分節化のための半教師付き学習モデルの開発と評価である。
最初の「教師」ディープラーニングモデルは、2010年から2017年にかけて米国のある機関から収集された457ピクセルの頭部CTスキャンに基づいて訓練された。
2つ目の"学生"モデルは、このピクセルラベル付きデータセットと擬似ラベル付きデータセットの組み合わせでトレーニングされた。
論文 参考訳(メタデータ) (2021-05-03T00:14:43Z) - In Defense of Pseudo-Labeling: An Uncertainty-Aware Pseudo-label
Selection Framework for Semi-Supervised Learning [53.1047775185362]
Pseudo-labeling (PL) は一般的な SSL アプローチで、この制約はありませんが、当初の処方では比較的不十分です。
PLは不整合モデルからの誤った高い信頼度予測により性能が低下していると論じる。
そこで本研究では,疑似ラベリング精度を向上させるための不確実性認識型擬似ラベル選択(ups)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-15T23:29:57Z) - Chest x-ray automated triage: a semiologic approach designed for
clinical implementation, exploiting different types of labels through a
combination of four Deep Learning architectures [83.48996461770017]
本研究では,異なる畳み込みアーキテクチャの後期融合に基づく深層学習手法を提案する。
公開胸部x線画像と機関アーカイブを組み合わせたトレーニングデータセットを4つ構築した。
4つの異なるディープラーニングアーキテクチャをトレーニングし、それらのアウトプットとレイトフュージョン戦略を組み合わせることで、統一されたツールを得ました。
論文 参考訳(メタデータ) (2020-12-23T14:38:35Z) - Semi-Supervised Speech Recognition via Graph-based Temporal
Classification [59.58318952000571]
半教師付き学習は自己学習による自動音声認識において有望な結果を示した。
このアプローチの有効性は、主に擬似ラベルの精度に依存する。
N-bestリストの別のASR仮説は、ラベルなしの発話に対してより正確なラベルを提供することができる。
論文 参考訳(メタデータ) (2020-10-29T14:56:56Z) - Machine-Learning-Based Multiple Abnormality Prediction with Large-Scale
Chest Computed Tomography Volumes [64.21642241351857]
19,993症例から36,316巻の胸部CTデータセットを収集,解析した。
自由テキストラジオグラフィーレポートから異常ラベルを自動的に抽出するルールベース手法を開発した。
胸部CTボリュームの多臓器・多臓器分類モデルも開発した。
論文 参考訳(メタデータ) (2020-02-12T00:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。