論文の概要: Trustworthy Agents for Electronic Health Records through Confidence Estimation
- arxiv url: http://arxiv.org/abs/2508.19096v1
- Date: Tue, 26 Aug 2025 14:59:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.893768
- Title: Trustworthy Agents for Electronic Health Records through Confidence Estimation
- Title(参考訳): 信頼度推定による電子健康記録の信頼できるエージェント
- Authors: Yongwoo Song, Minbyul Jeong, Mujeen Sung,
- Abstract要約: そこで我々は, 信頼性閾値の異なる精度-信頼性トレードオフを定量化する新しい尺度であるk%における幻覚制御精度を提案する。
臨床質問応答のための段階的信頼度推定を組み込んだ信頼度認識エージェントであるTrustEHRAgentを紹介する。
- 参考スコア(独自算出の注目度): 5.313502324941667
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) show promise for extracting information from Electronic Health Records (EHR) and supporting clinical decisions. However, deployment in clinical settings faces challenges due to hallucination risks. We propose Hallucination Controlled Accuracy at k% (HCAcc@k%), a novel metric quantifying the accuracy-reliability trade-off at varying confidence thresholds. We introduce TrustEHRAgent, a confidence-aware agent incorporating stepwise confidence estimation for clinical question answering. Experiments on MIMIC-III and eICU datasets show TrustEHRAgent outperforms baselines under strict reliability constraints, achieving improvements of 44.23%p and 25.34%p at HCAcc@70% while baseline methods fail at these thresholds. These results highlight limitations of traditional accuracy metrics in evaluating healthcare AI agents. Our work contributes to developing trustworthy clinical agents that deliver accurate information or transparently express uncertainty when confidence is low.
- Abstract(参考訳): 大規模言語モデル(LLM)は、電子健康記録(EHR)から情報を抽出し、臨床上の決定を支援することを約束する。
しかし、臨床環境への展開は幻覚のリスクによる課題に直面している。
本稿では, 信頼度が変化している場合に, 精度・信頼性のトレードオフを定量化するための新しい尺度であるHCAcc@k%(Halucination Controlled Accuracy at k%)を提案する。
臨床質問応答のための段階的信頼度推定を組み込んだ信頼度認識エージェントであるTrustEHRAgentを紹介する。
MIMIC-IIIとeICUデータセットの実験では、TrustEHRAgentは厳しい信頼性の制約の下でベースラインを上回り、HCAcc@70%で44.23%pと25.34%pの改善を達成した。
これらの結果は、医療AIエージェントの評価における従来の精度指標の制限を強調している。
本研究は,信頼度が低い場合に,正確な情報提供や透明に不確実性を発現する信頼性の高い臨床薬の開発に寄与する。
関連論文リスト
- Confidence-aware Monocular Depth Estimation for Minimally Invasive Surgery [8.602185221341648]
内視鏡的ビデオシーケンスは、しばしば煙、特異な反射、ぼやけ、閉塞によって汚染される。
現在のMDEモデルは深度信頼を出力しないため、臨床信頼性を向上させる上で貴重なツールとなる可能性がある。
本稿では,3つの重要な貢献を特徴とする信頼性を考慮した新しいMDEフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-03T22:59:24Z) - Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification [60.18369393468405]
既存の検証器は通常、ドメイン知識の欠如と限られた校正のために性能が劣る。
GLEANは専門家によって計算されたプロトコルをトラジェクトリインフォームされ、よく校正された正当性信号にコンパイルする。
我々は,MIMIC-IVデータセットから得られた3つの疾患の薬物的臨床診断でGLEANを実証的に検証した。
論文 参考訳(メタデータ) (2026-03-03T09:36:43Z) - Towards Reliable Medical LLMs: Benchmarking and Enhancing Confidence Estimation of Large Language Models in Medical Consultation [97.36081721024728]
本稿では,現実的な医療相談におけるマルチターンインタラクションの信頼性を評価するための最初のベンチマークを提案する。
本ベンチマークでは,3種類の医療データを統合し,診断を行う。
本稿では,エビデンスを基盤とした言語自己評価フレームワークであるMedConfを紹介する。
論文 参考訳(メタデータ) (2026-01-22T04:51:39Z) - MedBayes-Lite: Bayesian Uncertainty Quantification for Safe Clinical Decision Support [5.22077647816926]
MedBayes-Liteはトランスフォーマーに基づく臨床言語モデルのための軽量ベイズ拡張である。
MedBayes-Liteは、リトレーニングやアーキテクチャの変更なしに、既存のトランスフォーマーパイプラインに直接不確実な定量化を組み込む。
キャリブレーションと信頼性を継続的に改善し、自信過剰を32%から48%減らす。
論文 参考訳(メタデータ) (2025-11-20T18:33:12Z) - Mind the Generation Process: Fine-Grained Confidence Estimation During LLM Generation [63.49409574310576]
大規模言語モデル(LLM)は自信過剰を示し、信頼度の高いスコアを誤った予測に割り当てる。
本研究では,テキスト生成中に高精度できめ細かな信頼スコアを提供する信頼度推定手法であるFineCEを紹介する。
論文で使用されたコードとすべてのベースラインはGitHubで公開されている。
論文 参考訳(メタデータ) (2025-08-16T13:29:35Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - Fact-Level Confidence Calibration and Self-Correction [64.40105513819272]
本稿では,事実レベルでの信頼度と妥当性の重み付けを校正するFact-Levelフレームワークを提案する。
また,信頼度の高い自己補正(textbfConFix$)も開発した。
論文 参考訳(メタデータ) (2024-11-20T14:15:18Z) - Towards Reliable Medical Image Segmentation by utilizing Evidential Calibrated Uncertainty [52.03490691733464]
本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。
主観的論理理論を利用して、医用画像分割の問題に対する確率と不確実性を明示的にモデル化する。
DeviSには不確実性を考慮したフィルタリングモジュールが組み込まれている。
論文 参考訳(メタデータ) (2023-01-01T05:02:46Z) - Confidence-Calibrated Face and Kinship Verification [8.570969129199467]
検証モデルにより、類似度スコアを任意の顔対に対する信頼スコアに変換することができる効果的な信頼度尺度を導入する。
また,実装が容易で,既存の検証モデルにも容易に適用可能な,信頼性校正アプローチであるAngular Scaling(ASC)を提案する。
我々の知識を最大限に活用するために、我々の研究は、現代の顔と親族関係の検証タスクに対する、初めての包括的信頼度校正ソリューションを提示した。
論文 参考訳(メタデータ) (2022-10-25T10:43:46Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。