論文の概要: Quantifying Hallucinations in Language Language Models on Medical Textbooks
- arxiv url: http://arxiv.org/abs/2603.09986v1
- Date: Thu, 12 Feb 2026 16:16:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-15 16:38:22.527296
- Title: Quantifying Hallucinations in Language Language Models on Medical Textbooks
- Title(参考訳): 医学教科書における言語モデルにおける幻覚の定量化
- Authors: Brandon C. Colelough, Davis Bartels, Dina Demner-Fushman,
- Abstract要約: 教科書によるQAにおける幻覚の発生頻度と,QAに対する反応がモデルによって異なるのかを問う。
実験1ではLLaMA-70B-Instructが19.7%(95% CI 18.6~20.7)で幻覚した。
- 参考スコア(独自算出の注目度): 5.868116026339879
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Hallucinations, the tendency for large language models to provide responses with factually incorrect and unsupported claims, is a serious problem within natural language processing for which we do not yet have an effective solution to mitigate against. Existing benchmarks for medical QA rarely evaluate this behavior against a fixed evidence source. We ask how often hallucinations occur on textbook-grounded QA and how responses to medical QA prompts vary across models. We conduct two experiments: the first experiment to determine the prevalence of hallucinations for a prominent open source large language model (LLaMA-70B-Instruct) in medical QA given novel prompts, and the second experiment to determine the prevalence of hallucinations and clinician preference to model responses. We observed, in experiment one, with the passages provided, LLaMA-70B-Instruct hallucinated in 19.7\% of answers (95\% CI 18.6 to 20.7) even though 98.8\% of prompt responses received maximal plausibility, and observed in experiment two, across models, lower hallucination rates aligned with higher usefulness scores ($ρ=-0.71$, $p=0.058$). Clinicians produced high agreement (quadratic weighted $κ=0.92$) and ($τ_b=0.06$ to $0.18$, $κ=0.57$ to $0.61$) for experiments 1 and ,2 respectively
- Abstract(参考訳): 大規模言語モデルが事実的かつ不正確な主張を回答する傾向にある幻覚は、自然言語処理において深刻な問題であり、それに対して効果的な解決策がまだない。
既存のQAのベンチマークでは、固定された証拠源に対してこの行動を評価することはめったにない。
教科書によるQAにおける幻覚の発生頻度と,QAに対する反応がモデルによって異なるのかを問う。
新規プロンプトを付与した医療用QAにおける著名なオープンソース大規模言語モデル(LLaMA-70B-インストラクション)に対する幻覚の有病率を決定する第1実験と,モデル応答に対する幻覚の有病率と臨床選択性を決定する第2実験の2つの実験を行った。
LLaMA-70B-Instruct Hallucinated in 19.7\% (95\% CI 18.6 - 20.7) while 98.8\% of prompt response received maximal plausibility, and observed in experiment two, across model, lower hallucination rate with higher usefulness scores (ρ=-0.71$, $p=0.058$)。
臨床医は、それぞれ実験1と実験2に対して、高い合意(4次重みのκ=0.92$)と$τ_b=0.06$ to $0.18$, $κ=0.57$ to $0.61$)を作成した。
関連論文リスト
- Mitigating Behavioral Hallucination in Multimodal Large Language Models for Sequential Images [6.48620624181578]
SHE(Sequence Hallucination Eradication)は,幻覚を検知し緩和する軽量なフレームワークである。
また,行動幻覚の重症度を定量化する新しい指標(BEACH)を提案する。
論文 参考訳(メタデータ) (2025-06-08T15:08:52Z) - MedHallu: A Comprehensive Benchmark for Detecting Medical Hallucinations in Large Language Models [82.30696225661615]
MedHalluは、医学的幻覚検出に特化して設計された最初のベンチマークである。
GPT-4o, Llama-3.1, および医学的に微調整されたUltraMedicalを含む最先端のLSMは、このバイナリ幻覚検出タスクに苦慮している。
双方向の包絡クラスタリングを用いて, 難解な幻覚は, 意味論的に真実に近いことを示す。
論文 参考訳(メタデータ) (2025-02-20T06:33:23Z) - On Large Language Models' Hallucination with Regard to Known Facts [74.96789694959894]
大規模な言語モデルはファクトイドの質問に答えることに成功したが、幻覚を起こす傾向がある。
正しい解答知識を持つLLMの現象を推論力学の観点から検討する。
我々の研究は、LLMの幻覚が既知の事実について、そしてより重要なのは、幻覚を正確に予測する理由を理解することに光を当てた。
論文 参考訳(メタデータ) (2024-03-29T06:48:30Z) - Evaluating Hallucinations in Chinese Large Language Models [65.4771562909392]
我々は,中国大言語モデルにおける幻覚現象を測定するために,HaluQA(中国語幻覚質問回答)というベンチマークを構築した。
GLM-130B と ChatGPT の2種類の幻覚について考察した。
評価のために,モデル出力が幻覚的かどうかを判定するために,GPT-4を用いた自動評価手法を設計する。
論文 参考訳(メタデータ) (2023-10-05T07:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。