論文の概要: Agent-Based Uncertainty Awareness Improves Automated Radiology Report Labeling with an Open-Source Large Language Model
- arxiv url: http://arxiv.org/abs/2502.01691v1
- Date: Sun, 02 Feb 2025 16:57:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:04:30.108789
- Title: Agent-Based Uncertainty Awareness Improves Automated Radiology Report Labeling with an Open-Source Large Language Model
- Title(参考訳): エージェントによる不確実性認識は、オープンソースの大規模言語モデルを用いた自動放射線学レポートを改善する
- Authors: Hadas Ben-Atya, Naama Gavrielov, Zvi Badash, Gili Focht, Ruth Cytter-Kuint, Talar Hagopian, Dan Turner, Moti Freiman,
- Abstract要約: クローン病患者のヘブライ語9,683例について検討した。
我々は不確実性を認識したプロンプトアンサンブルとエージェントに基づく決定モデルを導入した。
- 参考スコア(独自算出の注目度): 1.7064514726335305
- License:
- Abstract: Reliable extraction of structured data from radiology reports using Large Language Models (LLMs) remains challenging, especially for complex, non-English texts like Hebrew. This study introduces an agent-based uncertainty-aware approach to improve the trustworthiness of LLM predictions in medical applications. We analyzed 9,683 Hebrew radiology reports from Crohn's disease patients (from 2010 to 2023) across three medical centers. A subset of 512 reports was manually annotated for six gastrointestinal organs and 15 pathological findings, while the remaining reports were automatically annotated using HSMP-BERT. Structured data extraction was performed using Llama 3.1 (Llama 3-8b-instruct) with Bayesian Prompt Ensembles (BayesPE), which employed six semantically equivalent prompts to estimate uncertainty. An Agent-Based Decision Model integrated multiple prompt outputs into five confidence levels for calibrated uncertainty and was compared against three entropy-based models. Performance was evaluated using accuracy, F1 score, precision, recall, and Cohen's Kappa before and after filtering high-uncertainty cases. The agent-based model outperformed the baseline across all metrics, achieving an F1 score of 0.3967, recall of 0.6437, and Cohen's Kappa of 0.3006. After filtering high-uncertainty cases (greater than or equal to 0.5), the F1 score improved to 0.4787, and Kappa increased to 0.4258. Uncertainty histograms demonstrated clear separation between correct and incorrect predictions, with the agent-based model providing the most well-calibrated uncertainty estimates. By incorporating uncertainty-aware prompt ensembles and an agent-based decision model, this approach enhances the performance and reliability of LLMs in structured data extraction from radiology reports, offering a more interpretable and trustworthy solution for high-stakes medical applications.
- Abstract(参考訳): 大型言語モデル(LLM)を用いた放射線学報告からの構造化データの信頼性の高い抽出は、特にヘブライ語のような複雑で非英語のテキストでは困難である。
本研究では,医療応用におけるLCM予測の信頼性向上のためのエージェントベース不確実性認識手法を提案する。
我々は,クローン病患者(2010年から2023年まで)のヘブライ語9,683件の放射線診断報告を3つの医療センターで分析した。
512例は手動で消化管6例,病理所見15例と診断し,残りはHSMP-BERTで自動的に診断した。
構造データ抽出はLlama 3.1 (Llama 3-8b-instruct) とBayesPE (BayesPE) を用いて行った。
エージェントベース決定モデルは、複数のプロンプト出力を5つの信頼レベルに統合し、キャリブレーションの不確かさを判定し、3つのエントロピーモデルと比較した。
精度, F1スコア, 精度, リコール, コーエンのカッパを高不確かさ症例のフィルター前後で評価した。
エージェントベースのモデルは全ての指標でベースラインを上回り、F1スコアは0.3967、リコールは0.6437、コーエンのKappaは0.3006となった。
高不確かさ(0.5以上)を濾過した後、F1スコアは0.4787に改善し、Kappaは0.4258に増加した。
不確かさヒストグラムは正しい予測と不正確な予測を明確に分離し、エージェントベースモデルが最もよく校正された不確実性推定を提供する。
不確実性を認識したプロンプトアンサンブルとエージェントベースの決定モデルを組み合わせることで、ラジオロジーレポートから構造化されたデータ抽出におけるLCMの性能と信頼性を高め、ハイテイクな医療応用のためのより解釈可能な信頼性の高いソリューションを提供する。
関連論文リスト
- Evaluating Spoken Language as a Biomarker for Automated Screening of Cognitive Impairment [37.40606157690235]
言語と言語の変化は、アルツハイマー病と関連する認知症を早期に予測できる。
音声言語からのADRDスクリーニングと重度予測のための機械学習手法の評価を行った。
リスク階層化と言語的特徴重要度分析は、予測の解釈可能性と臨床的有用性を高めた。
論文 参考訳(メタデータ) (2025-01-30T20:17:17Z) - Utilizing Machine Learning Models to Predict Acute Kidney Injury in Septic Patients from MIMIC-III Database [0.0]
セプシス(Sepsis)は、体が感染に対して正しく反応しない重篤な疾患である。
敗血症患者では、約50%が急性腎障害(AKI)を発症する。
敗血症患者の特徴に基づいてAKIを正確に予測できるモデルは早期発見と介入に不可欠である。
論文 参考訳(メタデータ) (2024-12-04T22:05:35Z) - Reshaping Free-Text Radiology Notes Into Structured Reports With Generative Transformers [0.29530625605275984]
構造化報告(SR)は様々な医療社会で推奨されている。
自由テキストレポートから情報を抽出するパイプラインを提案する。
我々の研究は自然言語処理(NLP)とトランスフォーマーベースのモデルを活用することを目的としている。
論文 参考訳(メタデータ) (2024-03-27T18:38:39Z) - Llamas Know What GPTs Don't Show: Surrogate Models for Confidence
Estimation [70.27452774899189]
大規模言語モデル(LLM)は、ユーザを誤解させるのではなく、不正な例に対して低い信頼を示さなければならない。
2023年11月現在、最先端のLLMはこれらの確率へのアクセスを提供していない。
言語的信頼度と代理モデル確率を構成する最良の方法は、12データセットすべてに対して最先端の信頼度推定を与える。
論文 参考訳(メタデータ) (2023-11-15T11:27:44Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Towards Reliable Medical Image Segmentation by utilizing Evidential Calibrated Uncertainty [52.03490691733464]
本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。
主観的論理理論を利用して、医用画像分割の問題に対する確率と不確実性を明示的にモデル化する。
DeviSには不確実性を考慮したフィルタリングモジュールが組み込まれている。
論文 参考訳(メタデータ) (2023-01-01T05:02:46Z) - Advancing COVID-19 Diagnosis with Privacy-Preserving Collaboration in
Artificial Intelligence [79.038671794961]
我々はUCADI(Unified CT-COVID AI Diagnostic Initiative)を立ち上げ、各ホスト機関でAIモデルを分散的にトレーニングし、独立して実行することができる。
本研究は,中国とイギリスに所在する23の病院で採取した3,336例の胸部CT9,573例について検討した。
論文 参考訳(メタデータ) (2021-11-18T00:43:41Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z) - All Data Inclusive, Deep Learning Models to Predict Critical Events in
the Medical Information Mart for Intensive Care III Database (MIMIC III) [0.0]
本研究は35,348人を対象に42,818人の入院患者を対象に行った。
複数のデータソースにわたる7500万以上のイベントが処理され、3億5500万以上のトークンが処理された。
すべてのデータソースを使用して構築されたモデルから、はるかに信頼性が高く、信頼性の高いホスピタル死亡を予測できる。
論文 参考訳(メタデータ) (2020-09-02T22:12:18Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。