論文の概要: Closing the Performance Gap Between AI and Radiologists in Chest X-Ray Reporting
- arxiv url: http://arxiv.org/abs/2511.21735v1
- Date: Fri, 21 Nov 2025 10:53:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.187372
- Title: Closing the Performance Gap Between AI and Radiologists in Chest X-Ray Reporting
- Title(参考訳): 胸部X線リポートにおけるAIと放射線科医のパフォーマンスギャップの解消
- Authors: Harshita Sharma, Maxwell C. Reynolds, Valentina Salvatelli, Anne-Marie G. Sykes, Kelly K. Horst, Anton Schwaighofer, Maximilian Ilse, Olesya Melnichenko, Sam Bond-Taylor, Fernando Pérez-García, Vamshi K. Mugu, Alex Chan, Ceylan Colak, Shelby A. Swartz, Motassem B. Nashawaty, Austin J. Gonzalez, Heather A. Ouellette, Selnur B. Erdal, Beth A. Schueler, Maria T. Wetscherek, Noel Codella, Mohit Jain, Shruthi Bannur, Kenza Bouzid, Daniel C. Castro, Stephanie Hyland, Panos Korfiatis, Ashish Khandelwal, Javier Alvarez-Valle,
- Abstract要約: 胸部X線レポート生成のための臨床評価型マルチモーダルAIモデルMAIRA-Xを紹介する。
タイプや縦方向の変化,配置などの属性を報告する上での精度を評価するために,新しいL&T特化メトリクスフレームワークを開発した。
以上の結果から,MAIRA-Xは放射線科医,特に高用量臨床現場で効果的に治療できる可能性が示唆された。
- 参考スコア(独自算出の注目度): 40.40577855417923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI-assisted report generation offers the opportunity to reduce radiologists' workload stemming from expanded screening guidelines, complex cases and workforce shortages, while maintaining diagnostic accuracy. In addition to describing pathological findings in chest X-ray reports, interpreting lines and tubes (L&T) is demanding and repetitive for radiologists, especially with high patient volumes. We introduce MAIRA-X, a clinically evaluated multimodal AI model for longitudinal chest X-ray (CXR) report generation, that encompasses both clinical findings and L&T reporting. Developed using a large-scale, multi-site, longitudinal dataset of 3.1 million studies (comprising 6 million images from 806k patients) from Mayo Clinic, MAIRA-X was evaluated on three holdout datasets and the public MIMIC-CXR dataset, where it significantly improved AI-generated reports over the state of the art on lexical quality, clinical correctness, and L&T-related elements. A novel L&T-specific metrics framework was developed to assess accuracy in reporting attributes such as type, longitudinal change and placement. A first-of-its-kind retrospective user evaluation study was conducted with nine radiologists of varying experience, who blindly reviewed 600 studies from distinct subjects. The user study found comparable rates of critical errors (3.0% for original vs. 4.6% for AI-generated reports) and a similar rate of acceptable sentences (97.8% for original vs. 97.4% for AI-generated reports), marking a significant improvement over prior user studies with larger gaps and higher error rates. Our results suggest that MAIRA-X can effectively assist radiologists, particularly in high-volume clinical settings.
- Abstract(参考訳): AI支援レポート生成は、診断精度を維持しながら、拡大されたスクリーニングガイドライン、複雑なケース、労働力不足から生じる放射線学者の作業負荷を削減する機会を提供する。
胸部X線検査における病理所見の記載に加えて,線と管の解釈 (L&T) は放射線科医,特に患者数の多い患者に対して必要かつ反復的である。
我々は,臨床所見とL&T報告の両方を含む,慢性胸部X線(CXR)レポート生成のための,臨床的に評価されたマルチモーダルAIモデルMAIRA-Xを紹介する。
マヨクリニックの3100万件の研究(806万件の患者から600万件の画像を含む)からなる大規模で多地点の縦断的データセットを用いて、MAIRA-Xは3つのホールドアウトデータセットとMIMIC-CXRデータセットで評価され、語彙的品質、臨床的正確性、L&T関連要素に関するAI生成レポートを大幅に改善した。
タイプや縦方向の変化,配置などの属性を報告する上での精度を評価するために,新しいL&T特化メトリクスフレームワークを開発した。
9人の放射線技師がそれぞれ異なる被験者から600の研究を盲目的にレビューした。
ユーザー調査では、批判的エラーの比率(AI生成レポートでは3.0%、AI生成レポートでは4.6%)と、許容される文の比率(AI生成レポートでは97.8%、AI生成レポートでは97.4%)に匹敵し、より大きなギャップとより高いエラー率を持つ以前のユーザー調査よりも大幅に改善された。
以上の結果から,MAIRA-Xは放射線科医,特に高用量臨床現場で効果的に治療できることが示唆された。
関連論文リスト
- Agentic large language models improve retrieval-based radiology question answering [4.208637377704778]
Radiology Retrieval and Reasoning (RaR)は、放射線学的質問応答のための多段階の検索および推論フレームワークである。
RaRはゼロショットプロンプトや従来のオンラインRAGよりも平均診断精度が有意に向上した。
RaRの検索は幻覚を減少させ(平均9.4%)、臨床的に関連のあるコンテキストを46%の症例で検索した。
論文 参考訳(メタデータ) (2025-08-01T16:18:52Z) - MGH Radiology Llama: A Llama 3 70B Model for Radiology [50.42811030970618]
本稿では,高度な放射線学に焦点を当てた大規模言語モデルMGH Radiology Llamaを提案する。
Llama 3 70Bモデルを使用して開発され、Radiology-GPTやRadiology-Llama2といった従来のドメイン固有モデルをベースにしている。
従来の指標とGPT-4に基づく評価の両方を取り入れた評価では,汎用LLMよりも高い性能を示す。
論文 参考訳(メタデータ) (2024-08-13T01:30:03Z) - Large Model driven Radiology Report Generation with Clinical Quality
Reinforcement Learning [16.849933628738277]
放射線学報告生成 (RRG) は, 放射線技師の作業量削減の可能性から注目されている。
本稿では,新しいRRG法である textbfLM-RRG について紹介する。
MIMIC-CXRおよびIU-Xrayデータセットを用いた実験により,本手法が技術状況よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-11T13:47:11Z) - Consensus, dissensus and synergy between clinicians and specialist
foundation models in radiology report generation [32.26270073540666]
世界中の放射線技師の不足は専門家のケアへのアクセスを制限し、重労働を課している。
視覚言語モデルを用いた自動レポート生成の最近の進歩は、状況を改善するための明確な可能性を示唆している。
我々は、胸部X線写真のための最新のレポート生成システム、textitFlamingo-CXRを構築し、放射線学データに基づくよく知られた視覚言語基盤モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-30T05:38:34Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - Exploring and Distilling Posterior and Prior Knowledge for Radiology
Report Generation [55.00308939833555]
PPKEDには、Posterior Knowledge Explorer (PoKE), Prior Knowledge Explorer (PrKE), Multi-domain Knowledge Distiller (MKD)の3つのモジュールが含まれている。
PoKEは後部知識を探求し、視覚データのバイアスを軽減するために明確な異常な視覚領域を提供する。
PrKEは、以前の医学知識グラフ(医学知識)と以前の放射線学レポート(作業経験)から以前の知識を探り、テキストデータのバイアスを軽減する。
論文 参考訳(メタデータ) (2021-06-13T11:10:02Z) - Variational Knowledge Distillation for Disease Classification in Chest
X-Rays [102.04931207504173]
我々は,X線に基づく疾患分類のための新しい確率的推論フレームワークである反復的知識蒸留(VKD)を提案する。
提案手法の有効性を,X線画像とEHRを用いた3つの公開ベンチマークデータセットに示す。
論文 参考訳(メタデータ) (2021-03-19T14:13:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。