論文の概要: Beyond Accuracy: Risk-Sensitive Evaluation of Hallucinated Medical Advice
- arxiv url: http://arxiv.org/abs/2602.07319v1
- Date: Sat, 07 Feb 2026 02:25:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.569511
- Title: Beyond Accuracy: Risk-Sensitive Evaluation of Hallucinated Medical Advice
- Title(参考訳): リスク・センシティブなハロシン化医療アドバイザの評価
- Authors: Savan Doshi,
- Abstract要約: 本稿では,リスクを負う言語の存在によって幻覚を定量化するリスク感受性評価フレームワークを提案する。
安全ストレステストとして設計された患者対応プロンプトを用いて,3つの言語モデルに本フレームワークを適用した。
- 参考スコア(独自算出の注目度): 0.1609950046042424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly being used in patient-facing medical question answering, where hallucinated outputs can vary widely in potential harm. However, existing hallucination standards and evaluation metrics focus primarily on factual correctness, treating all errors as equally severe. This obscures clinically relevant failure modes, particularly when models generate unsupported but actionable medical language. We propose a risk-sensitive evaluation framework that quantifies hallucinations through the presence of risk-bearing language, including treatment directives, contraindications, urgency cues, and mentions of high-risk medications. Rather than assessing clinical correctness, our approach evaluates the potential impact of hallucinated content if acted upon. We further combine risk scoring with a relevance measure to identify high-risk, low-grounding failures. We apply this framework to three instruction-tuned language models using controlled patient-facing prompts designed as safety stress tests. Our results show that models with similar surface-level behavior exhibit substantially different risk profiles and that standard evaluation metrics fail to capture these distinctions. These findings highlight the importance of incorporating risk sensitivity into hallucination evaluation and suggest that evaluation validity is critically dependent on task and prompt design.
- Abstract(参考訳): 大規模言語モデルは患者が直面する医療質問応答においてますます使われており、幻覚出力は潜在的に有害である可能性がある。
しかし、既存の幻覚基準と評価基準は主に事実の正しさに焦点を合わせ、全ての誤りを同じように深刻に扱う。
これは、特にモデルがサポートされないが実行可能な医療言語を生成する場合、臨床的に関連する障害モードを曖昧にする。
本稿では, 治療指示, 予防接種, 緊急処置, 高リスク医薬品の言及など, リスク対応言語の存在によって幻覚を定量化するリスク感受性評価フレームワークを提案する。
本研究は,臨床的正確性を評価するのではなく,ハロゲン化コンテンツの潜在的影響を評価する。
さらに、リスクスコアと関連尺度を組み合わせることで、リスクの高い低地障害を特定します。
安全ストレステストとして設計された患者対応プロンプトを用いて,3つの言語モデルに本フレームワークを適用した。
以上の結果から, 同様の表面レベルの挙動を持つモデルでは, リスクプロファイルが著しく異なり, 標準的な評価基準では, それらの特徴を捉えることができないことがわかった。
これらの知見は, 幻覚評価にリスク感受性を取り入れることの重要性を強調し, 評価妥当性が課題と迅速な設計に依存していることを示唆している。
関連論文リスト
- Benchmarking Egocentric Clinical Intent Understanding Capability for Medical Multimodal Large Language Models [48.95516224614331]
MedGaze-Benchは、臨床医の視線を認知的カーソルとして活用し、手術、緊急シミュレーション、診断解釈における意図的理解を評価する最初のベンチマークである。
本ベンチマークでは,解剖学的構造の視覚的均一性,臨床における時間・因果依存性の厳格化,安全プロトコルへの暗黙の順守という3つの基本的な課題に対処する。
論文 参考訳(メタデータ) (2026-01-11T02:20:40Z) - The Persona Paradox: Medical Personas as Behavioral Priors in Clinical Language Models [18.902372087770562]
ペルソナは、安全性や専門性の保証よりも、コンテキスト依存のトレードオフを導入する行動の先駆者として機能する。
私たちの研究は、ペルソナが安全性や専門知識の保証よりも、文脈に依存したトレードオフを導入する行動の優先事項として機能することを示している。
論文 参考訳(メタデータ) (2026-01-08T21:01:11Z) - HACK: Hallucinations Along Certainty and Knowledge Axes [66.66625343090743]
本稿では,2つの軸に沿って幻覚を分類する枠組みを提案する。
内部的に正しい知識を持っているにもかかわらず、モデルが確実に幻覚する幻覚のサブセットを特に特定する。
論文 参考訳(メタデータ) (2025-10-28T09:34:31Z) - Hallucination Benchmark for Speech Foundation Models [33.92968426403491]
自動音声認識(ASR)システムにおける幻覚とは、基礎となる音響入力(すなわち、音声信号)とは全く無関係な神経性ASRモデルによって生成される流動的でコヒーレントな転写を指す。
この明らかな一貫性は、その後の処理段階を誤解させ、特に医療や法のような重要な領域において重大なリスクをもたらす可能性がある。
本稿では,ASRにおける幻覚現象を,語彙,音声,形態,意味の4つの相補軸に沿って体系的に分類し,定量化する最初のベンチマークフレームワークであるSHALLOWを紹介する。
論文 参考訳(メタデータ) (2025-10-18T16:26:16Z) - Beyond Accuracy: Rethinking Hallucination and Regulatory Response in Generative AI [7.068082004005692]
生成AIにおける幻覚は、しばしば、実際正しい出力を生成する技術的失敗として扱われる。
本稿では, 規制と評価の枠組みが幻覚の狭い見方をいかに受け継いだのかを批判的に考察する。
論文 参考訳(メタデータ) (2025-09-12T19:41:10Z) - MIRAGE-Bench: LLM Agent is Hallucinating and Where to Find Them [52.764019220214344]
幻覚は、大きな言語モデル(LLM)ベースのエージェントに重大なリスクをもたらす。
MIRAGE-Benchは対話型環境における幻覚の抽出と評価のための最初の統一ベンチマークである。
論文 参考訳(メタデータ) (2025-07-28T17:38:29Z) - Metrics that matter: Evaluating image quality metrics for medical image generation [48.85783422900129]
本研究は、脳MRIデータを用いて、一般的に使用される非参照画像品質指標を包括的に評価する。
本研究は, ノイズ, 分布変化, および臨床的に関係のある不正確さを模倣した形態的変化を含む, 様々な課題に対する計量感度を評価する。
論文 参考訳(メタデータ) (2025-05-12T01:57:25Z) - Evaluating Evaluation Metrics -- The Mirage of Hallucination Detection [25.31502165275055]
幻覚は言語モデルの信頼性と普及に大きな障害となる。
4つのデータセット、37の言語モデル、5つの復号法で幻覚検出指標を大規模に評価する。
論文 参考訳(メタデータ) (2025-04-25T06:37:29Z) - Medical Hallucinations in Foundation Models and Their Impact on Healthcare [71.15392179084428]
基礎モデルの幻覚は自己回帰訓練の目的から生じる。
トップパフォーマンスモデルは、チェーン・オブ・シークレット・プロンプトで強化された場合、97%の精度を達成した。
論文 参考訳(メタデータ) (2025-02-26T02:30:44Z) - Towards Mitigating Hallucination in Large Language Models via
Self-Reflection [63.2543947174318]
大規模言語モデル(LLM)は、質問応答(QA)タスクを含む生成的および知識集約的なタスクを約束している。
本稿では,広範に採用されているLCMとデータセットを用いた医療再生QAシステムにおける幻覚現象を解析する。
論文 参考訳(メタデータ) (2023-10-10T03:05:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。