論文の概要: Calibrated Confidence Expression for Radiology Report Generation
- arxiv url: http://arxiv.org/abs/2603.29492v1
- Date: Tue, 31 Mar 2026 09:37:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.45345
- Title: Calibrated Confidence Expression for Radiology Report Generation
- Title(参考訳): 放射線学レポート生成のための校正信頼表現
- Authors: David Bani-Harouni, Chantal Pellegrini, Julian Lüers, Su Hwan Kim, Markus Baalmann, Benedikt Wiestler, Rickmer Braren, Nassir Navab, Matthias Keicher,
- Abstract要約: 放射線学レポート生成における大規模視覚言語モデル(LVLM)は、正確な予測と臨床的に解釈可能な指標を必要とする。
現在の最先端言語モデルはしばしば自信過剰であり、放射線学レポート生成などのマルチモーダル設定における校正に関する研究は限られている。
本稿では,LVLMを微調整する医療強化学習フレームワークであるConRadを紹介する。
- 参考スコア(独自算出の注目度): 33.24673060327421
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safe deployment of Large Vision-Language Models (LVLMs) in radiology report generation requires not only accurate predictions but also clinically interpretable indicators of when outputs should be thoroughly reviewed, enabling selective radiologist verification and reducing the risk of hallucinated findings influencing clinical decisions. One intuitive approach to this is verbalized confidence, where the model explicitly states its certainty. However, current state-of-the-art language models are often overconfident, and research on calibration in multimodal settings such as radiology report generation is limited. To address this gap, we introduce ConRad (Confidence Calibration for Radiology Reports), a reinforcement learning framework for fine-tuning medical LVLMs to produce calibrated verbalized confidence estimates alongside radiology reports. We study two settings: a single report-level confidence score and a sentence-level variant assigning a confidence to each claim. Both are trained using the GRPO algorithm with reward functions based on the logarithmic scoring rule, which incentivizes truthful self-assessment by penalizing miscalibration and guarantees optimal calibration under reward maximization. Experimentally, ConRad substantially improves calibration and outperforms competing methods. In a clinical evaluation we show that ConRad's report level scores are well aligned with clinicians' judgment. By highlighting full reports or low-confidence statements for targeted review, ConRad can support safer clinical integration of AI-assistance for report generation.
- Abstract(参考訳): 放射線学報告生成におけるLVLM(Large Vision-Language Models)の安全な展開には、正確な予測だけでなく、いつアウトプットが徹底的にレビューされるべきかを臨床的に解釈可能な指標が必要である。
これに対する直感的なアプローチの1つは、モデルがその確実性を明確に記述する、言語化された信頼である。
しかし、現状の言語モデルはしばしば自信過剰であり、放射線学レポート生成のようなマルチモーダル設定における校正に関する研究は限られている。
このギャップに対処するために,医療用LVLMを微調整するための強化学習フレームワークであるConRad(Confidence Calibration for Radiology Reports)を紹介した。
1つのレポートレベルの信頼度スコアと、各クレームに信頼を割り当てる文レベルの変量という2つの設定について検討する。
どちらも対数スコアリングルールに基づく報奨関数を持つGRPOアルゴリズムを用いてトレーニングされており、これは誤校正を罰し、報酬最大化の下で最適な校正を保証することによって真正自己評価のインセンティブを与える。
実験的に、ConRadはキャリブレーションを大幅に改善し、競合する手法より優れている。
臨床評価では,ConRadの報告レベルスコアは臨床医の判断とよく一致している。
対象レビューのための完全なレポートや低信頼のステートメントを強調することで、ConRadはレポート生成のためのAIアシストのより安全な臨床統合をサポートすることができる。
関連論文リスト
- Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification [60.18369393468405]
既存の検証器は通常、ドメイン知識の欠如と限られた校正のために性能が劣る。
GLEANは専門家によって計算されたプロトコルをトラジェクトリインフォームされ、よく校正された正当性信号にコンパイルする。
我々は,MIMIC-IVデータセットから得られた3つの疾患の薬物的臨床診断でGLEANを実証的に検証した。
論文 参考訳(メタデータ) (2026-03-03T09:36:43Z) - Suppressing Prior-Comparison Hallucinations in Radiology Report Generation via Semantically Decoupled Latent Steering [94.37535002230504]
本研究では,Semantically Decoupled Latent Steeringと呼ばれる学習自由な推論時間制御フレームワークを開発した。
提案手法は,大言語モデル (LLM) による意味分解による意味のない介入ベクトルを構築する。
本手法は歴史的幻覚の可能性を著しく低下させることを示す。
論文 参考訳(メタデータ) (2026-02-27T04:49:01Z) - RadAlign: Advancing Radiology Report Generation with Vision-Language Concept Alignment [10.67889367763112]
RadAlignは、視覚言語モデルの予測精度と大きな言語モデルの推論能力を組み合わせた、新しいフレームワークである。
本フレームワークは, 幻覚の低減, 自動医用画像の進歩, 予測AIと生成AIの統合による報告分析を両立させながら, 強力な臨床解釈可能性を維持している。
論文 参考訳(メタデータ) (2025-01-13T17:55:32Z) - Semantic Consistency-Based Uncertainty Quantification for Factuality in Radiology Report Generation [20.173287130474797]
生成医療ビジョン大言語モデル(VLLM)は幻覚を起こしやすく、不正確な診断情報を生成できる。
報告レベルと文レベルの不確実性の両方を提供するセマンティック一貫性に基づく不確実性定量化フレームワークを新たに導入する。
提案手法は,MIMIC-CXRデータセット上のtexttRadialogモデルを用いて,20ドル分のレポートを拒否することで,事実性スコアを10ドル%改善する。
論文 参考訳(メタデータ) (2024-12-05T20:43:39Z) - ICON: Improving Inter-Report Consistency in Radiology Report Generation via Lesion-aware Mixup Augmentation [14.479606737135045]
我々は,放射線学レポート生成のレポート間一貫性を改善するICONを提案する。
まず,入力画像から病変を抽出し,その特徴について検討する。
次に, 意味論的に等価な病変の表現が同一の属性と一致することを確実にするために, 病変認識ミックスアップ手法を導入する。
論文 参考訳(メタデータ) (2024-02-20T09:13:15Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - Towards Reliable Medical Image Segmentation by Modeling Evidential Calibrated Uncertainty [57.023423137202485]
医用画像のセグメンテーションの信頼性に関する懸念が臨床医の間で続いている。
本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。
主観的論理理論を活用することで、医用画像分割の確率と不確実性を明示的にモデル化する。
論文 参考訳(メタデータ) (2023-01-01T05:02:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。