論文の概要: Comparative Evaluation of Generative AI Models for Chest Radiograph Report Generation in the Emergency Department
- arxiv url: http://arxiv.org/abs/2512.00271v1
- Date: Sat, 29 Nov 2025 01:45:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.142132
- Title: Comparative Evaluation of Generative AI Models for Chest Radiograph Report Generation in the Emergency Department
- Title(参考訳): 救急部門における胸部X線画像生成のための生成AIモデルの比較評価
- Authors: Woo Hyeon Lim, Ji Young Lee, Jong Hyuk Lee, Saehoon Kim, Hyungjin Kim,
- Abstract要約: オープンソースまたは商用の医用画像専用VLMは、実世界の放射線学者による報告と比較された。
報告の質と診断基準が評価された。
- 参考スコア(独自算出の注目度): 12.174370982511237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Purpose: To benchmark open-source or commercial medical image-specific VLMs against real-world radiologist-written reports. Methods: This retrospective study included adult patients who presented to the emergency department between January 2022 and April 2025 and underwent same-day CXR and CT for febrile or respiratory symptoms. Reports from five VLMs (AIRead, Lingshu, MAIRA-2, MedGemma, and MedVersa) and radiologist-written reports were randomly presented and blindly evaluated by three thoracic radiologists using four criteria: RADPEER, clinical acceptability, hallucination, and language clarity. Comparative performance was assessed using generalized linear mixed models, with radiologist-written reports treated as the reference. Finding-level analyses were also performed with CT as the reference. Results: A total of 478 patients (median age, 67 years [interquartile range, 50-78]; 282 men [59.0%]) were included. AIRead demonstrated the lowest RADPEER 3b rate (5.3% [76/1434] vs. radiologists 13.9% [200/1434]; P<.001), whereas other VLMs showed higher disagreement rates (16.8-43.0%; P<.05). Clinical acceptability was the highest with AIRead (84.5% [1212/1434] vs. radiologists 74.3% [1065/1434]; P<.001), while other VLMs performed worse (41.1-71.4%; P<.05). Hallucinations were rare with AIRead, comparable to radiologists (0.3% [4/1425]) vs. 0.1% [1/1425]; P=.21), but frequent with other models (5.4-17.4%; P<.05). Language clarity was higher with AIRead (82.9% [1189/1434]), Lingshu (88.0% [1262/1434]), and MedVersa (88.4% [1268/1434]) compared with radiologists (78.1% [1120/1434]; P<.05). Sensitivity varied substantially across VLMs for the common findings: AIRead, 15.5-86.7%; Lingshu, 2.4-86.7%; MAIRA-2, 6.0-72.0%; MedGemma, 4.8-76.7%; and MedVersa, 20.2-69.3%. Conclusion: Medical VLMs for CXR report generation exhibited variable performance in report quality and diagnostic measures.
- Abstract(参考訳): 目的: 実世界の放射線学者による報告に対して、オープンソースまたは商用の医用画像固有のVLMをベンチマークする。
方法】2022年1月から2025年4月までに救急部を受診し,同日CXR,CTにて発熱,呼吸症状を認めた成人例を対象とした。
5つのVLM (AIRead, Lingshu, MAIRA-2, MedGemma, MedVersa) および放射線技師による報告を, RADPEER, 臨床受容性, 幻覚, 言語明瞭性の4つの基準を用いてランダムに提示し, 盲目的に評価した。
一般線形混合モデルを用いて比較評価を行い, 放射線技師による報告を参考として検討した。
また,CTを基準とした検索レベル解析も行った。
結果: 成人478例(中間年齢67歳50~78歳, 男性282名(59.0%))を対象とした。
AIRead は RADPEER 3b の最低値 (5.3% [76/1434] 対 13.9% [200/1434]; P<.001) を示したが、他の VLM は高い不一致率 (16.8-43.0%; P<.05) を示した。
AIRead (84.5% [1212/1434]) と放射線技師 (74.3% [1065/1434]; P<.001) の順で、他のVLM (41.1-71.4%; P<.05) は順調であった。
AIReadでは、放射線学者 (0.3% [4/1425]) 対 0.1% [1/1425]; P=.21) に匹敵する幻覚は稀であったが、他のモデル (5.4-17.4%; P<.05) では頻繁であった。
AIRead (82.9% [1189/1434]), Lingshu (88.0% [1262/1434]), MedVersa (88.4% [1268/1434]) は放射線学者 (78.1% [1120/1434]; P<.05) と比較して言語明瞭度が高かった。
AIRead, 15.5-86.7%、Lingshu, 2.4-86.7%、MAIRA-2, 6.0-72.0%、MedGemma, 4.8-76.7%、MedVersa, 20.2-69.3%。
結論: CXRレポート生成のための医療用VLMは, 報告品質および診断基準の変動性能を示した。
関連論文リスト
- Closing the Performance Gap Between AI and Radiologists in Chest X-Ray Reporting [40.40577855417923]
胸部X線レポート生成のための臨床評価型マルチモーダルAIモデルMAIRA-Xを紹介する。
タイプや縦方向の変化,配置などの属性を報告する上での精度を評価するために,新しいL&T特化メトリクスフレームワークを開発した。
以上の結果から,MAIRA-Xは放射線科医,特に高用量臨床現場で効果的に治療できる可能性が示唆された。
論文 参考訳(メタデータ) (2025-11-21T10:53:26Z) - PARROT: An Open Multilingual Radiology Reports Dataset [29.462034288413097]
PARROTは、複数の言語にまたがる架空の放射線学レポートの大きな、多中心的でオープンアクセスデータセットである。
このデータセットは、21か国と13の言語にわたる76人の著者による2,658の放射線学レポートで構成されている。
論文 参考訳(メタデータ) (2025-07-25T07:54:24Z) - MedHELM: Holistic Evaluation of Large Language Models for Medical Tasks [47.486705282473984]
大規模言語モデル(LLM)は、医学試験においてほぼ完璧なスコアを得る。
これらの評価は、実際の臨床実践の複雑さと多様性を不十分に反映している。
MedHELMは,医療業務におけるLCMの性能を評価するための評価フレームワークである。
論文 参考訳(メタデータ) (2025-05-26T22:55:49Z) - Medical Hallucinations in Foundation Models and Their Impact on Healthcare [71.15392179084428]
基礎モデルの幻覚は自己回帰訓練の目的から生じる。
トップパフォーマンスモデルは、チェーン・オブ・シークレット・プロンプトで強化された場合、97%の精度を達成した。
論文 参考訳(メタデータ) (2025-02-26T02:30:44Z) - Deep Radiomics Detection of Clinically Significant Prostate Cancer on Multicenter MRI: Initial Comparison to PI-RADS Assessment [0.0]
本研究は,2010年から2020年の間に取得した4つのデータセットから615例(平均年齢63.1+/-7歳)のバイパラメトリック(T2WおよびDW)前立腺MRI配列を分析した。
深部放射線学の機械学習モデルは, 病変レベルではなく, csPCa検出において, PI-RADSアセスメントに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-10-21T17:41:58Z) - Detection of subclinical atherosclerosis by image-based deep learning on chest x-ray [86.38767955626179]
460胸部X線で冠状動脈カルシウム(CAC)スコアを予測する深層学習アルゴリズムを開発した。
AICACモデルの診断精度は, 曲線下領域(AUC)で評価された。
論文 参考訳(メタデータ) (2024-03-27T16:56:14Z) - Attention-based Saliency Maps Improve Interpretability of Pneumothorax
Classification [52.77024349608834]
視覚変換器(ViT)の胸部X線撮影(CXR)分類性能と注意ベース唾液の解釈可能性について検討する。
ViTは、CheXpert、Chest X-Ray 14、MIMIC CXR、VinBigDataの4つの公開データセットを用いて、肺疾患分類のために微調整された。
ViTsは最先端のCNNと比べてCXR分類AUCに匹敵するものであった。
論文 参考訳(メタデータ) (2023-03-03T12:05:41Z) - The Report on China-Spain Joint Clinical Testing for Rapid COVID-19 Risk
Screening by Eye-region Manifestations [59.48245489413308]
携帯電話カメラで中国とスペインで撮影された視線領域の画像を用いて、新型コロナウイルスの早期スクリーニングモデルを開発し、テストした。
AUC, 感度, 特異性, 精度, F1。
論文 参考訳(メタデータ) (2021-09-18T02:28:01Z) - Predicting Clinical Outcomes in COVID-19 using Radiomics and Deep
Learning on Chest Radiographs: A Multi-Institutional Study [3.3839341058136054]
新型コロナウイルス感染症(COVID-19)患者の胸部X線写真(CXR)の計算モデルを用いて,機械的換気要件と死亡率を予測する。
2020年3月から8月にかけて、Stony Brook大学病院とNewark Beth Israel Medical Centerで治療された新型コロナウイルス患者530種のCXRを解析した。
論文 参考訳(メタデータ) (2020-07-15T22:48:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。