論文の概要: Trustworthy Agents for Electronic Health Records through Confidence Estimation
- arxiv url: http://arxiv.org/abs/2508.19096v1
- Date: Tue, 26 Aug 2025 14:59:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.893768
- Title: Trustworthy Agents for Electronic Health Records through Confidence Estimation
- Title(参考訳): 信頼度推定による電子健康記録の信頼できるエージェント
- Authors: Yongwoo Song, Minbyul Jeong, Mujeen Sung,
- Abstract要約: そこで我々は, 信頼性閾値の異なる精度-信頼性トレードオフを定量化する新しい尺度であるk%における幻覚制御精度を提案する。
臨床質問応答のための段階的信頼度推定を組み込んだ信頼度認識エージェントであるTrustEHRAgentを紹介する。
- 参考スコア(独自算出の注目度): 5.313502324941667
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) show promise for extracting information from Electronic Health Records (EHR) and supporting clinical decisions. However, deployment in clinical settings faces challenges due to hallucination risks. We propose Hallucination Controlled Accuracy at k% (HCAcc@k%), a novel metric quantifying the accuracy-reliability trade-off at varying confidence thresholds. We introduce TrustEHRAgent, a confidence-aware agent incorporating stepwise confidence estimation for clinical question answering. Experiments on MIMIC-III and eICU datasets show TrustEHRAgent outperforms baselines under strict reliability constraints, achieving improvements of 44.23%p and 25.34%p at HCAcc@70% while baseline methods fail at these thresholds. These results highlight limitations of traditional accuracy metrics in evaluating healthcare AI agents. Our work contributes to developing trustworthy clinical agents that deliver accurate information or transparently express uncertainty when confidence is low.
- Abstract(参考訳): 大規模言語モデル(LLM)は、電子健康記録(EHR)から情報を抽出し、臨床上の決定を支援することを約束する。
しかし、臨床環境への展開は幻覚のリスクによる課題に直面している。
本稿では, 信頼度が変化している場合に, 精度・信頼性のトレードオフを定量化するための新しい尺度であるHCAcc@k%(Halucination Controlled Accuracy at k%)を提案する。
臨床質問応答のための段階的信頼度推定を組み込んだ信頼度認識エージェントであるTrustEHRAgentを紹介する。
MIMIC-IIIとeICUデータセットの実験では、TrustEHRAgentは厳しい信頼性の制約の下でベースラインを上回り、HCAcc@70%で44.23%pと25.34%pの改善を達成した。
これらの結果は、医療AIエージェントの評価における従来の精度指標の制限を強調している。
本研究は,信頼度が低い場合に,正確な情報提供や透明に不確実性を発現する信頼性の高い臨床薬の開発に寄与する。
関連論文リスト
- Mind the Generation Process: Fine-Grained Confidence Estimation During LLM Generation [63.49409574310576]
大規模言語モデル(LLM)は自信過剰を示し、信頼度の高いスコアを誤った予測に割り当てる。
本研究では,テキスト生成中に高精度できめ細かな信頼スコアを提供する信頼度推定手法であるFineCEを紹介する。
論文で使用されたコードとすべてのベースラインはGitHubで公開されている。
論文 参考訳(メタデータ) (2025-08-16T13:29:35Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - Fact-Level Confidence Calibration and Self-Correction [64.40105513819272]
本稿では,事実レベルでの信頼度と妥当性の重み付けを校正するFact-Levelフレームワークを提案する。
また,信頼度の高い自己補正(textbfConFix$)も開発した。
論文 参考訳(メタデータ) (2024-11-20T14:15:18Z) - Towards Reliable Medical Image Segmentation by utilizing Evidential Calibrated Uncertainty [52.03490691733464]
本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。
主観的論理理論を利用して、医用画像分割の問題に対する確率と不確実性を明示的にモデル化する。
DeviSには不確実性を考慮したフィルタリングモジュールが組み込まれている。
論文 参考訳(メタデータ) (2023-01-01T05:02:46Z) - Confidence-Calibrated Face and Kinship Verification [8.570969129199467]
検証モデルにより、類似度スコアを任意の顔対に対する信頼スコアに変換することができる効果的な信頼度尺度を導入する。
また,実装が容易で,既存の検証モデルにも容易に適用可能な,信頼性校正アプローチであるAngular Scaling(ASC)を提案する。
我々の知識を最大限に活用するために、我々の研究は、現代の顔と親族関係の検証タスクに対する、初めての包括的信頼度校正ソリューションを提示した。
論文 参考訳(メタデータ) (2022-10-25T10:43:46Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。