論文の概要: Generative Large Language Models Trained for Detecting Errors in Radiology Reports
- arxiv url: http://arxiv.org/abs/2504.04336v1
- Date: Sun, 06 Apr 2025 03:02:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:15:03.909614
- Title: Generative Large Language Models Trained for Detecting Errors in Radiology Reports
- Title(参考訳): 放射線診断における誤り検出のための大規模言語モデルの構築
- Authors: Cong Sun, Kurt Teichman, Yiliang Zhou, Brian Critelli, David Nauheim, Graham Keir, Xindi Wang, Judy Zhong, Adam E Flanders, George Shih, Yifan Peng,
- Abstract要約: このデータセットは、特定のプロンプトを用いてGPT-4によって生成された1,656の合成胸部放射線学報告を含む。
Llama-3、GPT-4、BiomedBERTなどいくつかのモデルはゼロショットプロンプト、少数ショットプロンプト、微調整戦略を用いて改良された。
ゼロショットプロンプトを用いることで、微調整のLlama-3-70B-Instructモデルは、否定誤差0.769、左右誤差0.772、間隔変更エラー0.750、転写エラー0.828、全体の0.780というF1スコアで最高のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 11.852981889270012
- License:
- Abstract: In this retrospective study, a dataset was constructed with two parts. The first part included 1,656 synthetic chest radiology reports generated by GPT-4 using specified prompts, with 828 being error-free synthetic reports and 828 containing errors. The second part included 614 reports: 307 error-free reports between 2011 and 2016 from the MIMIC-CXR database and 307 corresponding synthetic reports with errors generated by GPT-4 on the basis of these MIMIC-CXR reports and specified prompts. All errors were categorized into four types: negation, left/right, interval change, and transcription errors. Then, several models, including Llama-3, GPT-4, and BiomedBERT, were refined using zero-shot prompting, few-shot prompting, or fine-tuning strategies. Finally, the performance of these models was evaluated using the F1 score, 95\% confidence interval (CI) and paired-sample t-tests on our constructed dataset, with the prediction results further assessed by radiologists. Using zero-shot prompting, the fine-tuned Llama-3-70B-Instruct model achieved the best performance with the following F1 scores: 0.769 for negation errors, 0.772 for left/right errors, 0.750 for interval change errors, 0.828 for transcription errors, and 0.780 overall. In the real-world evaluation phase, two radiologists reviewed 200 randomly selected reports output by the model. Of these, 99 were confirmed to contain errors detected by the models by both radiologists, and 163 were confirmed to contain model-detected errors by at least one radiologist. Generative LLMs, fine-tuned on synthetic and MIMIC-CXR radiology reports, greatly enhanced error detection in radiology reports.
- Abstract(参考訳): この振り返り調査では、2つの部分からなるデータセットを構築した。
第1部は、GPT-4が特定のプロンプトを用いて生成した合成胸部X線写真1,656件、エラーのない合成レポート828件、エラーを含むエラー828件を含む。
第2部は614のレポートを含む: 2011年から2016年にかけてのMIMIC-CXRデータベースからのエラーなしのレポート307と、これらのMIMIC-CXRレポートと指定されたプロンプトに基づいて、GPT-4によって生成されたエラーに対応する合成レポート307である。
すべてのエラーは、否定、左右、間隔変更、転写エラーの4つのタイプに分類された。
その後、Llama-3、GPT-4、BiomedBERTといったいくつかのモデルはゼロショットプロンプト、少数ショットプロンプト、微調整戦略を用いて改良された。
最後に, これらのモデルの性能を, F1スコア, 95%信頼区間 (CI) とペアサンプルt-tests を用いて評価した。
ゼロショットプロンプトを用いることで、微調整のLlama-3-70B-Instructモデルは、否定誤差0.769、左右誤差0.772、間隔変更エラー0.750、転写エラー0.828、全体の0.780というF1スコアで最高のパフォーマンスを達成した。
実世界の評価フェーズでは、2人の放射線学者がモデルによって出力された200のランダムに選択されたレポートをレビューした。
これらのうち、99は両放射線科医によって検出されたモデルによる誤りを含むことが確認され、163は少なくとも1つの放射線科医によるモデル検出エラーを含むことが確認された。
MIMIC-CXRとMIMIC-CXRを微調整した生成LDMは、放射線診断においてエラー検出を大幅に強化した。
関連論文リスト
- Semantic Consistency-Based Uncertainty Quantification for Factuality in Radiology Report Generation [20.173287130474797]
生成医療ビジョン大言語モデル(VLLM)は幻覚を起こしやすく、不正確な診断情報を生成できる。
報告レベルと文レベルの不確実性の両方を提供するセマンティック一貫性に基づく不確実性定量化フレームワークを新たに導入する。
提案手法は,MIMIC-CXRデータセット上のtexttRadialogモデルを用いて,20ドル分のレポートを拒否することで,事実性スコアを10ドル%改善する。
論文 参考訳(メタデータ) (2024-12-05T20:43:39Z) - Anatomically-Grounded Fact Checking of Automated Chest X-ray Reports [0.0]
そこで本稿では, 報告によって提示された発見とその位置の誤りを識別する, 説明可能なファクトチェックのための新しいモデルを提案する。
我々は,複数のSOTA自動報告ツールが生成した報告の修正において,結果のファクトチェックモデルとその有用性を評価する。
論文 参考訳(メタデータ) (2024-12-03T05:21:42Z) - CRTRE: Causal Rule Generation with Target Trial Emulation Framework [47.2836994469923]
ターゲットトライアルエミュレーションフレームワーク(CRTRE)を用いた因果ルール生成という新しい手法を提案する。
CRTREは、アソシエーションルールの因果効果を推定するためにランダム化トライアル設計原則を適用している。
次に、病気発症予測などの下流アプリケーションにそのような関連ルールを組み込む。
論文 参考訳(メタデータ) (2024-11-10T02:40:06Z) - ReXErr: Synthesizing Clinically Meaningful Errors in Diagnostic Radiology Reports [1.9106067578277455]
胸部X線レポート内の代表的エラーを生成するために,大規模言語モデルを活用する手法であるReXErrを紹介する。
我々は、人間とAIが生成したレポートでよくある誤りを捉えるエラーカテゴリを開発した。
本手法は, 臨床応用可能性を維持しつつ, 多様な誤差を注入する新しいサンプリング手法を用いている。
論文 参考訳(メタデータ) (2024-09-17T01:42:39Z) - Exploring Multimodal Large Language Models for Radiology Report
Error-checking [1.7217842380976978]
本稿では, 放射線技師が報告の誤りを確認するための補助として, マルチモーダル大言語モデル (LLMs) を用いた最初の臨床応用の1つを提案する。
我々は、実世界の放射線学データセット(X線とCTスキャンを含む)から評価データセットを作成しました。
SIMPLEレベルでは,MIMIC-CXRとIU X線データでそれぞれ47.4%,25.4%向上した。
論文 参考訳(メタデータ) (2023-12-20T15:20:33Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - Learning to diagnose cirrhosis from radiological and histological labels
with joint self and weakly-supervised pretraining strategies [62.840338941861134]
そこで本稿では, 放射線学者が注釈付けした大規模データセットからの転写学習を活用して, 小さい付加データセットで利用できる組織学的スコアを予測することを提案する。
我々は,肝硬変の予測を改善するために,異なる事前訓練法,すなわち弱い指導法と自己指導法を比較した。
この方法は、METAVIRスコアのベースライン分類を上回り、AUCが0.84、バランスの取れた精度が0.75に達する。
論文 参考訳(メタデータ) (2023-02-16T17:06:23Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z) - Event-based clinical findings extraction from radiology reports with
pre-trained language model [0.22940141855172028]
今回,臨床所見を付加した新しい放射線診断報告のコーパスを報告する。
金の標準コーパスには合計500点の注記CTレポートが含まれていた。
BERTを含む2つの最先端ディープラーニングアーキテクチャを用いて、トリガと引数のエンティティを抽出した。
論文 参考訳(メタデータ) (2021-12-27T05:03:10Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z) - CLARA: Clinical Report Auto-completion [56.206459591367405]
CLARA(CLinicit Al It Report It Auto-Completion)は、医師のアンカーワードと部分的に完成した文に基づいて、文章でレポートを生成するインタラクティブな方法である。
実験では,X線で0.393 CIDEr,0.248 BLEU-4,脳波で0.482 CIDEr,0.491 BLEU-4を得た。
論文 参考訳(メタデータ) (2020-02-26T18:45:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。