論文の概要: Trustworthy Medical Question Answering: An Evaluation-Centric Survey
- arxiv url: http://arxiv.org/abs/2506.03659v1
- Date: Wed, 04 Jun 2025 07:48:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.207535
- Title: Trustworthy Medical Question Answering: An Evaluation-Centric Survey
- Title(参考訳): 信頼できる医療質問に対する回答 : 評価センターによる調査
- Authors: Yinuo Wang, Robert E. Mercer, Frank Rudzicz, Sudipta Singha Roy, Pengjie Ren, Zhumin Chen, Xindi Wang,
- Abstract要約: 医療質問応答システムにおける信頼性の6つの重要な側面を体系的に検討した。
モデル改善を促進する評価誘導手法を解析する。
我々は, LLM を用いた医療用QAの安全性, 信頼性, 透明性の確保に向けた今後の研究方針を提案する。
- 参考スコア(独自算出の注目度): 36.06747842975472
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Trustworthiness in healthcare question-answering (QA) systems is important for ensuring patient safety, clinical effectiveness, and user confidence. As large language models (LLMs) become increasingly integrated into medical settings, the reliability of their responses directly influences clinical decision-making and patient outcomes. However, achieving comprehensive trustworthiness in medical QA poses significant challenges due to the inherent complexity of healthcare data, the critical nature of clinical scenarios, and the multifaceted dimensions of trustworthy AI. In this survey, we systematically examine six key dimensions of trustworthiness in medical QA, i.e., Factuality, Robustness, Fairness, Safety, Explainability, and Calibration. We review how each dimension is evaluated in existing LLM-based medical QA systems. We compile and compare major benchmarks designed to assess these dimensions and analyze evaluation-guided techniques that drive model improvements, such as retrieval-augmented grounding, adversarial fine-tuning, and safety alignment. Finally, we identify open challenges-such as scalable expert evaluation, integrated multi-dimensional metrics, and real-world deployment studies-and propose future research directions to advance the safe, reliable, and transparent deployment of LLM-powered medical QA.
- Abstract(参考訳): 医療質問応答システム(QA)の信頼性は、患者の安全性、臨床効果、ユーザの信頼性を保証するために重要である。
大規模言語モデル(LLM)が医療環境に統合されるにつれて、その応答の信頼性は、臨床的な意思決定や患者の結果に直接影響を及ぼす。
しかし、医療QAにおける包括的信頼性の実現は、医療データの本質的な複雑さ、臨床シナリオの重要な性質、信頼に値するAIの多面的側面など、大きな課題を生んでいる。
本調査では,医療用QAにおける信頼性の6つの重要な側面,すなわちFactality, Robustness, Fairness, Safety, Explainability, Calibrationを体系的に検討した。
既存のLCMベースの医療QAシステムにおいて,各次元がどのように評価されるかを検討する。
我々は,これらの次元を評価するために設計された主要なベンチマークをコンパイル・比較し,検索強化接地,対向微調整,安全アライメントなどのモデル改善を駆動する評価誘導手法を解析する。
最後に、スケーラブルな専門家評価、多次元メトリクスの統合、実世界の展開研究といったオープンな課題を特定し、LLMによる医療用QAの安全性、信頼性、透明な展開を促進するための今後の研究方向を提案する。
関連論文リスト
- Uncertainty Quantification for Machine Learning in Healthcare: A Survey [3.023243549665548]
不確実性定量化(UQ)は、医療における機械学習(ML)システムの堅牢性、信頼性、解釈可能性を高める上で重要である。
MLベースの臨床意思決定支援ツールの出現にもかかわらず、MLモデルにおける不確実性の原理的定量化の欠如は大きな課題である。
本研究は、医療のためのMLパイプラインにUQを実装する上での課題と機会について、より明確な概要を提供する。
論文 参考訳(メタデータ) (2025-05-04T16:56:22Z) - Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - The challenge of uncertainty quantification of large language models in medicine [0.0]
本研究では,医学応用のための大規模言語モデル(LLM)の不確実性定量化について検討する。
私たちの研究は、不確実性を障壁としてではなく、AI設計に対する動的で反射的なアプローチを招待する知識の不可欠な部分として捉えています。
論文 参考訳(メタデータ) (2025-04-07T17:24:11Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - A Comprehensive Survey on the Trustworthiness of Large Language Models in Healthcare [5.765614539740084]
医療における大規模言語モデル(LLM)の適用は、臨床意思決定、医学研究、患者医療に革命をもたらす可能性がある。
LLMはますます医療システムに統合されているため、信頼性と倫理的展開を保証するために、いくつかの重要な課題に対処する必要がある。
論文 参考訳(メタデータ) (2025-02-21T18:43:06Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - Which Client is Reliable?: A Reliable and Personalized Prompt-based Federated Learning for Medical Image Question Answering [51.26412822853409]
本稿では,医学的視覚的質問応答(VQA)モデルのための,パーソナライズド・フェデレーションド・ラーニング(pFL)手法を提案する。
提案手法では,学習可能なプロンプトをTransformerアーキテクチャに導入し,膨大な計算コストを伴わずに,多様な医療データセット上で効率的にトレーニングする。
論文 参考訳(メタデータ) (2024-10-23T00:31:17Z) - Detecting Bias and Enhancing Diagnostic Accuracy in Large Language Models for Healthcare [0.2302001830524133]
バイアスドAIによる医療アドバイスと誤診は患者の安全を脅かす可能性がある。
本研究では、医療における倫理的かつ正確なAIを促進するために設計された新しいリソースを紹介する。
論文 参考訳(メタデータ) (2024-10-09T06:00:05Z) - Word-Sequence Entropy: Towards Uncertainty Estimation in Free-Form Medical Question Answering Applications and Beyond [52.246494389096654]
本稿ではワードシーケンスエントロピー(WSE)を紹介し,単語レベルとシーケンスレベルの不確実性を校正する手法を提案する。
We compare WSE with six baseline method on five free-form medical QA datasets, using 7 popular large language model (LLMs)。
論文 参考訳(メタデータ) (2024-02-22T03:46:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。