論文の概要: Evaluating Generative AI as an Educational Tool for Radiology Resident Report Drafting
- arxiv url: http://arxiv.org/abs/2511.02839v1
- Date: Mon, 22 Sep 2025 20:51:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.127634
- Title: Evaluating Generative AI as an Educational Tool for Radiology Resident Report Drafting
- Title(参考訳): 放射線医学教育ツールとしてのジェネレーティブAIの評価
- Authors: Antonio Verdone, Aidan Cardall, Fardeen Siddiqui, Motaz Nashawaty, Danielle Rigau, Youngjoon Kwon, Mira Yousef, Shalin Patel, Alex Kieturakis, Eric Kim, Laura Heacock, Beatriu Reig, Yiqiu Shen,
- Abstract要約: 本研究は,HIPAA 準拠の GPT-4o システムを用いて,実地臨床環境において住民が作成した乳房画像報告を自動的にフィードバックするシステムについて検討した。
1) キー発見の欠落または追加,(2) 技術的記述子の誤用または欠落,(3) 結果と一致しない最終評価の3つの一般的な誤り型が同定された。
GPT-4oは、90.5%、78.3%、90.4%のエラータイプで、コンセンサスに強く同意している。
- 参考スコア(独自算出の注目度): 1.5457333450799497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Objective: Radiology residents require timely, personalized feedback to develop accurate image analysis and reporting skills. Increasing clinical workload often limits attendings' ability to provide guidance. This study evaluates a HIPAA-compliant GPT-4o system that delivers automated feedback on breast imaging reports drafted by residents in real clinical settings. Methods: We analyzed 5,000 resident-attending report pairs from routine practice at a multi-site U.S. health system. GPT-4o was prompted with clinical instructions to identify common errors and provide feedback. A reader study using 100 report pairs was conducted. Four attending radiologists and four residents independently reviewed each pair, determined whether predefined error types were present, and rated GPT-4o's feedback as helpful or not. Agreement between GPT and readers was assessed using percent match. Inter-reader reliability was measured with Krippendorff's alpha. Educational value was measured as the proportion of cases rated helpful. Results: Three common error types were identified: (1) omission or addition of key findings, (2) incorrect use or omission of technical descriptors, and (3) final assessment inconsistent with findings. GPT-4o showed strong agreement with attending consensus: 90.5%, 78.3%, and 90.4% across error types. Inter-reader reliability showed moderate variability (α = 0.767, 0.595, 0.567), and replacing a human reader with GPT-4o did not significantly affect agreement (Δ = -0.004 to 0.002). GPT's feedback was rated helpful in most cases: 89.8%, 83.0%, and 92.0%. Discussion: ChatGPT-4o can reliably identify key educational errors. It may serve as a scalable tool to support radiology education.
- Abstract(参考訳): 目的: 放射線学の住民は、正確な画像分析とレポートのスキルを開発するために、タイムリーでパーソナライズされたフィードバックを必要とする。
臨床作業量の増加は、しばしば参加者の指導力を制限する。
本研究は,HIPAA 準拠の GPT-4o システムを用いて,実地臨床環境において住民が作成した乳房画像報告を自動的にフィードバックするシステムについて検討した。
方法: 多施設の米国保健システムにおける常習者から, 5000人を対象に調査を行った。
GPT-4oは、一般的なエラーを特定し、フィードバックを提供するための臨床指示で誘導された。
100組のレポートペアを用いた読者調査を行った。
4人の放射線技師と4人の住民がそれぞれ別々にレビューを行い、事前に定義されたエラータイプが存在するかどうかを判断し、GPT-4oのフィードバックが有用かどうかを判定した。
GPTと読者の合意は一致率を用いて評価された。
読み手間の信頼性はクリッペンドルフのαで測定された。
有益と評価された症例の割合として教育価値を測定した。
結果:(1)キー発見の欠落・追加,(2)技術的記述子の誤用・欠落,(3)結果と一致しない最終評価の3種類の誤り型が同定された。
GPT-4oは、90.5%、78.3%、90.4%のエラータイプで、コンセンサスに強く同意している。
読み手間の信頼性は、適度な変動(α = 0.767, 0.595, 0.567)を示し、GPT-4oで読み手を置き換えることは、合意に大きく影響しない(Δ = -0.004, 0.002)。
GPTのフィードバックは89.8%、83.0%、92.0%と評価された。
議論:ChatGPT-4oは重要な教育的誤りを確実に特定できる。
放射線学教育を支援するためのスケーラブルなツールとして機能するかもしれない。
関連論文リスト
- Generating Natural-Language Surgical Feedback: From Structured Representation to Domain-Grounded Evaluation [66.7752700084159]
外科的トレーナーからの高品質なフィードバックは,訓練者のパフォーマンス向上と長期的スキル獲得に不可欠である。
本稿では,実際の訓練者-訓練者間の文書から外科的行動オントロジーを学習する構造対応パイプラインを提案する。
論文 参考訳(メタデータ) (2025-11-19T06:19:34Z) - DispatchMAS: Fusing taxonomy and artificial intelligence agents for emergency medical services [49.70819009392778]
大規模言語モデル (LLM) とマルチエージェントシステム (MAS) は、ディスパッチを増強する機会を提供する。
本研究の目的は,現実的なシナリオをシミュレートする分類基盤型マルチエージェントシステムの開発と評価である。
論文 参考訳(メタデータ) (2025-10-24T08:01:21Z) - Mapping Patient-Perceived Physician Traits from Nationwide Online Reviews with LLMs [3.364244912862208]
本稿では,5つの人格特性と5つの患者主観的判断を推定する大規模言語モデル(LLM)に基づくパイプラインを提案する。
この分析は、米国の医師226,999人の4100万人の患者のレビューを含む。
論文 参考訳(メタデータ) (2025-10-05T02:16:35Z) - Benchmarking GPT-5 in Radiation Oncology: Measurable Gains, but Persistent Need for Expert Oversight [1.0471566053937098]
GPT-5は大きな言語モデルであり、オンコロジーの使用に特化して販売されている。
TXITベンチマークでは、GPT-5の平均精度は92.8%で、GPT-4(78.8%)とGPT-3.5(62.1%)を上回った。
ビグネット評価では、GPT-5の治療勧告は、正当性(平均3.24/4、95%CI:3.11-3.38)と包括性(3.59/4、95%CI:3.49-3.69)を高く評価した。
幻覚は稀であったが,GPT-5による推奨が臨床導入に先立って厳密な専門家の監視を必要としていることを示す実体的誤りの存在
論文 参考訳(メタデータ) (2025-08-29T16:55:25Z) - Multi-Centre Validation of a Deep Learning Model for Scoliosis Assessment [0.0]
完全自動化深層学習ソフトウェア(Carebot AI Bones, Spine Measurement, Carebot s.r.o)の多施設共同評価を行った。
立位後背部X線写真103例について検討した。
2人の筋骨格ラジオストがそれぞれの研究を独立に測定し、参考読者として機能した。
論文 参考訳(メタデータ) (2025-07-18T17:21:53Z) - Interpretable Artificial Intelligence for Detecting Acute Heart Failure on Acute Chest CT Scans [2.2192473101240764]
胸部CT検査は、急性心不全(AHF)が重要な鑑別診断であるジスキニー病患者にますます用いられる。
胸部CTにおけるAHFの放射線学的徴候を胸部X線検査に匹敵する精度で検出する,説明可能なAIモデルの開発を目指している。
論文 参考訳(メタデータ) (2025-07-11T18:25:34Z) - Evaluating GPT's Capability in Identifying Stages of Cognitive Impairment from Electronic Health Data [0.8777457069049611]
本研究は,ゼロショットGPT-4oを用いて2つのタスクにおける認知障害の段階を決定する自動アプローチを評価する。
GPT-4oのグローバル・クリニカル・認知症評価(CDR)を769例から評価した。
第2に, 正常認知, 軽度認知障害 (MCI) , 認知認知障害 (MCI) と認知障害 (MCI) の鑑別能力を検討した。
論文 参考訳(メタデータ) (2025-02-13T19:04:47Z) - Impact of Large Language Model Assistance on Patients Reading Clinical Notes: A Mixed-Methods Study [46.5728291706842]
臨床記録をより読みやすくするために,大言語モデル(LLM)を用いた患者対応ツールを開発した。
乳がんの既往歴のある患者から寄贈された臨床記録と臨床医からの合成ノートを用いて,本ツールの試験を行った。
論文 参考訳(メタデータ) (2024-01-17T23:14:52Z) - A Systematic Evaluation of GPT-4V's Multimodal Capability for Medical
Image Analysis [87.25494411021066]
医用画像解析のためのGPT-4Vのマルチモーダル機能の評価を行った。
GPT-4Vは医用画像の理解に優れ、高品質な放射線診断レポートを生成する。
医用視覚接地の性能は大幅に改善する必要があることが判明した。
論文 参考訳(メタデータ) (2023-10-31T11:39:09Z) - Is GPT-4 a reliable rater? Evaluating Consistency in GPT-4 Text Ratings [63.35165397320137]
本研究では,OpenAI の GPT-4 によるフィードバック評価の整合性について検討した。
このモデルは、マクロ経済学の上級教育分野における課題に対する回答を、内容とスタイルの観点から評価した。
論文 参考訳(メタデータ) (2023-08-03T12:47:17Z) - Human Evaluation and Correlation with Automatic Metrics in Consultation
Note Generation [56.25869366777579]
近年,機械学習モデルによる臨床相談ノートの作成が急速に進んでいる。
5人の臨床医が57件のモック・コンサルテーションを聴き、自作のノートを書き、自動的に生成されたノートを編集し、全てのエラーを抽出する、広範囲にわたる人的評価研究を行った。
単純な文字ベースのLevenshtein距離測定は、BertScoreのような一般的なモデルベースの測定値に比較して、同等に動作します。
論文 参考訳(メタデータ) (2022-04-01T14:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。