論文の概要: Conformal Prediction for Risk-Controlled Medical Entity Extraction Across Clinical Domains
- arxiv url: http://arxiv.org/abs/2603.00924v1
- Date: Sun, 01 Mar 2026 05:12:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.416557
- Title: Conformal Prediction for Risk-Controlled Medical Entity Extraction Across Clinical Domains
- Title(参考訳): クリニカルドメイン間のリスク制御型医療エンティティ抽出のためのコンフォーマル予測
- Authors: Manil Shrestha, Edward Kim,
- Abstract要約: 本稿では,医療機関抽出のための有限サンプルカバレッジ保証を提供するコンフォメーション予測フレームワークを提案する。
まず,FactScoreをベースとした原子式ステートメント評価により,GPT-4.1を用いて,FDAの医薬品ラベル1000個から構造化されたエンティティを抽出した。
第2に,GPT-4.1とLlama-4-Maverickを用いたRadGraphスキーマを用いてMIMIC-CXRレポートから放射線学的実体を抽出し,医師のアノテーションに対して評価した。
- 参考スコア(独自算出の注目度): 2.744879848686032
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly used for medical entity extraction, yet their confidence scores are often miscalibrated, limiting safe deployment in clinical settings. We present a conformal prediction framework that provides finite-sample coverage guarantees for LLM-based extraction across two clinical domains. First, we extract structured entities from 1,000 FDA drug labels across eight sections using GPT-4.1, verified via FactScore-based atomic statement evaluation (97.7\% accuracy over 128,906 entities). Second, we extract radiological entities from MIMIC-CXR reports using the RadGraph schema with GPT-4.1 and Llama-4-Maverick, evaluated against physician annotations (entity F1: 0.81 to 0.84). Our central finding is that miscalibration direction reverses across domains: on well-structured FDA labels, models are underconfident, requiring modest conformal thresholds ($τ\approx 0.06$), while on free-text radiology reports, models are overconfident, demanding strict thresholds ($τ$ up to 0.99). Despite this heterogeneity, conformal prediction achieves target coverage ($\geq 90\%$) in both settings with manageable rejection rates (9--13\%). These results demonstrate that calibration is not a global model property but depends on document structure, extraction category, and model architecture, motivating domain-specific conformal calibration for safe clinical deployment.
- Abstract(参考訳): 大きな言語モデル (LLMs) は、医療機関の抽出にますます使われるが、その信頼性スコアはしばしば誤解され、臨床現場での安全な配備が制限される。
2つの臨床領域にまたがるLLM抽出のための有限サンプルカバレッジ保証を提供するコンフォメーション予測フレームワークを提案する。
まず,FactScoreをベースとした原子式ステートメント評価(128,906個以上の精度97.7\%)で検証したGPT-4.1を用いて,FDAの薬物ラベル1,000個から構造化されたエンティティを抽出した。
第2に,GPT-4.1とLlama-4-Maverickを用いたRadGraphスキーマを用いたMIMIC-CXRレポートから放射線学的実体を抽出し,医用アノテーション(entity F1: 0.81 to 0.84)と比較した。
我々の中心的な発見は、誤校正の方向がドメイン間で逆転していることだ: よく構造化されたFDAのラベルでは、モデルは不確実であり、控えめな整合しきい値(τ\approx 0.06$)を必要とするが、自由テキストのラジオロジーレポートでは、モデルは過信され、厳密なしきい値(τ$から0.99まで)を要求する。
この不均一性にもかかわらず、共形予測は、管理可能な拒絶率(9-13-%)の両方の設定において、ターゲットカバレッジ(\geq 90\%$)を達成する。
これらの結果は、キャリブレーションがグローバルなモデル特性ではなく、ドキュメント構造、抽出カテゴリ、モデルアーキテクチャに依存し、安全な臨床展開のためのドメイン固有のコンフォメーションキャリブレーションを動機付けていることを示している。
関連論文リスト
- Suppressing Prior-Comparison Hallucinations in Radiology Report Generation via Semantically Decoupled Latent Steering [94.37535002230504]
本研究では,Semantically Decoupled Latent Steeringと呼ばれる学習自由な推論時間制御フレームワークを開発した。
提案手法は,大言語モデル (LLM) による意味分解による意味のない介入ベクトルを構築する。
本手法は歴史的幻覚の可能性を著しく低下させることを示す。
論文 参考訳(メタデータ) (2026-02-27T04:49:01Z) - Automated Rubrics for Reliable Evaluation of Medical Dialogue Systems [19.880569341968023]
大規模言語モデル(LLM)は、幻覚や安全でない提案が患者の安全に直接的なリスクをもたらすという、臨床的な意思決定支援にますます利用されている。
本稿では,インスタンス固有の評価ルーリックの自動生成を目的とした検索拡張型マルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-21T16:40:41Z) - CTest-Metric: A Unified Framework to Assess Clinical Validity of Metrics for CT Report Generation [8.08950963137043]
CTest-Metricは,CT RRGのメトリクスの臨床的実現可能性を決定する3つのモジュールを備えた,最初の統合された計量評価フレームワークである。
モジュールテストでは, (i) LLMによるリフレッシングによるWSG, (ii) 重症度における合成エラー注入(SEI) および (iii) MvE (Metrics-vs-Expert correlation) を用いて臨床評価を行った。
8つの広く使われているメトリクス(BLEU, ROUGE, METEOR, BERTScore-F1, F1-RadGraph, Ra)
論文 参考訳(メタデータ) (2026-01-16T18:09:19Z) - Conditional Coverage Diagnostics for Conformal Prediction [47.93989136542648]
条件付きカバレッジ推定が分類問題であることを示す。
得られたメトリクスの族をターゲットカバレッジ(ERT)の過剰なリスクと呼びます。
ERTのオープンソースパッケージと、以前の条件付きカバレッジメトリクスをリリースしています。
論文 参考訳(メタデータ) (2025-12-12T18:47:39Z) - COPE: Chain-Of-Thought Prediction Engine for Open-Source Large Language Model Based Stroke Outcome Prediction from Clinical Notes [23.044580867637105]
CoT (Chain-of-Thought) Outcome Prediction Engine (COPE) は、構造化されていない臨床ノートから結果を予測するための推論強化された大規模言語モデルフレームワークである。
本研究は急性虚血性脳梗塞(AIS)464例と90日間のRanin Scale(mRS)スコアを比較検討した。
COPEは1.01 (95% CI 0.92-1.11), +/-1 の精度 74.4% (69.9, 78.8%), 正確な精度 32.8% (28.0, 37.6%) を達成した。
論文 参考訳(メタデータ) (2025-12-02T07:44:20Z) - Conformal Lesion Segmentation for 3D Medical Images [82.92159832699583]
本稿では,データ駆動しきい値の校正をコンフォーマル化することで,テスト時間FNRが目標許容値以下であることを保証する,リスク制約付きフレームワークを提案する。
5つのバックボーンモデルにまたがる6つの3D-LSデータセット上でのCLSの統計的健全性と予測性能を検証し,臨床実践におけるリスク認識セグメンテーションの展開に関する実用的な知見を得た。
論文 参考訳(メタデータ) (2025-10-19T08:21:00Z) - Large Language Model-Based Uncertainty-Adjusted Label Extraction for Artificial Intelligence Model Development in Upper Extremity Radiography [1.1994929325702173]
GPT-4oは、画像所見を現在(真)、不在(偽)、不確か(不確か)として示すことによって、構造化テンプレートを埋める
ラベルの不確実性の影響を評価するため、トレーニングと検証セットの「不確実」ラベルは、自動的に「真」または「偽」に再割り当てされる。
論文 参考訳(メタデータ) (2025-10-07T08:19:18Z) - A Modular Approach for Clinical SLMs Driven by Synthetic Data with Pre-Instruction Tuning, Model Merging, and Clinical-Tasks Alignment [46.776978552161395]
小型言語モデル(SLM)は、GPT-4のような大規模言語モデルに代わる費用対効果を提供する。
SLMは費用対効果のある代替手段を提供するが、その限られた能力は生物医学的な領域適応を必要とする。
本研究では,SLMを高性能な臨床モデルに適用するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-15T21:40:21Z) - Statistical Management of the False Discovery Rate in Medical Instance Segmentation Based on Conformal Risk Control [2.4578723416255754]
インスタンスセグメンテーションは、病変、腫瘍、解剖学的構造の正確な局在化とデライン化を可能にすることで、医療画像解析において重要な役割を担っている。
Mask R-CNNやBlendMaskのようなディープラーニングモデルは目覚ましい進歩を遂げているが、リスクの高い医療シナリオにおけるそれらの応用は、信頼性の校正の問題によって制限されている。
本稿では,この課題に対処するために,共形予測理論に基づく堅牢な品質制御フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-06T13:31:19Z) - CRTRE: Causal Rule Generation with Target Trial Emulation Framework [47.2836994469923]
ターゲットトライアルエミュレーションフレームワーク(CRTRE)を用いた因果ルール生成という新しい手法を提案する。
CRTREは、アソシエーションルールの因果効果を推定するためにランダム化トライアル設計原則を適用している。
次に、病気発症予測などの下流アプリケーションにそのような関連ルールを組み込む。
論文 参考訳(メタデータ) (2024-11-10T02:40:06Z) - Learning to diagnose cirrhosis from radiological and histological labels
with joint self and weakly-supervised pretraining strategies [62.840338941861134]
そこで本稿では, 放射線学者が注釈付けした大規模データセットからの転写学習を活用して, 小さい付加データセットで利用できる組織学的スコアを予測することを提案する。
我々は,肝硬変の予測を改善するために,異なる事前訓練法,すなわち弱い指導法と自己指導法を比較した。
この方法は、METAVIRスコアのベースライン分類を上回り、AUCが0.84、バランスの取れた精度が0.75に達する。
論文 参考訳(メタデータ) (2023-02-16T17:06:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。