論文の概要: Blending Human and LLM Expertise to Detect Hallucinations and Omissions in Mental Health Chatbot Responses
- arxiv url: http://arxiv.org/abs/2604.06216v1
- Date: Tue, 17 Mar 2026 21:13:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-12 18:41:08.646472
- Title: Blending Human and LLM Expertise to Detect Hallucinations and Omissions in Mental Health Chatbot Responses
- Title(参考訳): 精神保健チャットボット反応における幻覚・排ガス検出のための人間とLLM専門家のブレンディング
- Authors: Khizar Hussain, Bradley A. Malin, Zhijun Yin, Susannah Leigh Rose, Murat Kantarcioglu,
- Abstract要約: 最先端のLSM-as-a-judgeメソッドは、リスクの高い医療状況で失敗することが多い。
精神保健カウンセリングデータの精度は52%に過ぎなかった。
人間の専門知識をLCMと統合し、解釈可能な、ドメインインフォームドな特徴を抽出するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 13.970589950093988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As LLM-powered chatbots are increasingly deployed in mental health services, detecting hallucinations and omissions has become critical for user safety. However, state-of-the-art LLM-as-a-judge methods often fail in high-risk healthcare contexts, where subtle errors can have serious consequences. We show that leading LLM judges achieve only 52% accuracy on mental health counseling data, with some hallucination detection approaches exhibiting near-zero recall. We identify the root cause as LLMs' inability to capture nuanced linguistic and therapeutic patterns recognized by domain experts. To address this, we propose a framework that integrates human expertise with LLMs to extract interpretable, domain-informed features across five analytical dimensions: logical consistency, entity verification, factual accuracy, linguistic uncertainty, and professional appropriateness. Experiments on a public mental health dataset and a new human-annotated dataset show that traditional machine learning models trained on these features achieve 0.717 F1 on our custom dataset and 0.849 F1 on a public benchmark for hallucination detection, with 0.59-0.64 F1 for omission detection across both datasets. Our results demonstrate that combining domain expertise with automated methods yields more reliable and transparent evaluation than black-box LLM judging in high-stakes mental health applications.
- Abstract(参考訳): LLMを利用したチャットボットがメンタルヘルスサービスにますます普及しているため、幻覚や排便の検出はユーザーの安全にとって重要になっている。
しかし、最先端のLSM-as-a-judgeメソッドは、微妙なエラーが深刻な結果をもたらすリスクの高い医療環境で失敗することが多い。
精神保健カウンセリングデータの精度は52%に過ぎず, 幻覚検出法では, ほぼゼロのリコールがみられた。
我々は,根本原因を,ドメインの専門家が認識するニュアンスな言語・治療パターンを捕捉できないLLMとして認識する。
そこで本稿では, 論理的整合性, 実体検証, 事実的正確性, 言語的不確実性, 専門的適切性という, 5 つの分析次元にまたがる解釈可能な, ドメインインフォームドな特徴を抽出するために, LLM と人間の専門知識を統合したフレームワークを提案する。
公衆のメンタルヘルスデータセットと新しい人間によるアノテートデータセットの実験によると、これらの機能でトレーニングされた従来の機械学習モデルは、私たちのカスタムデータセットで0.717 F1、幻覚検出のための公開ベンチマークで0.849 F1、両方のデータセットで省略検出するために0.59-0.64 F1を達成する。
以上の結果から, 専門知識と自動手法を組み合わせることで, ブラックボックスLSMよりも信頼性が高く, 透明な評価が可能であることが示唆された。
関連論文リスト
- Using LLM-as-a-Judge/Jury to Advance Scalable, Clinically-Validated Safety Evaluations of Model Responses to Users Demonstrating Psychosis [1.53934570513443]
一般用大規模言語モデル(LLM)は、メンタルヘルス支援のために広く採用されている。
しかし、新たな証拠は、特に精神病に苦しむ人に対して、高周波の使用に関連する重大なリスクがあることを示唆している。
本研究は, LLMの安全性評価の重要条件としての精神病に焦点を当てた。
論文 参考訳(メタデータ) (2026-03-20T04:31:03Z) - LLM-as-a-Fuzzy-Judge: Fine-Tuning Large Language Models as a Clinical Evaluation Judge with Fuzzy Logic [3.1090878361419416]
本稿では,医学生の臨床スキルと主観的医師の好みを自動評価するLLM-as-a-Fuzzy-Judgeを提案する。
この手法は,4つのファジィ集合からの人間のアノテーションに基づいて,学生とAI患者の会話スクリプトにおける医学生の発話を評価するために微調整されている。
その結果,LLM-as-a-Fuzzy-Judgeの精度は80%以上であり,主要な基準項目は90%以上であることがわかった。
論文 参考訳(メタデータ) (2025-06-12T18:31:49Z) - Fact or Guesswork? Evaluating Large Language Models' Medical Knowledge with Structured One-Hop Judgments [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし、適用する能力は、まだ探索されていない。
標準化された語彙と知識グラフの包括的なリポジトリであるUMLS(Unified Medical Language System)から派生したデータセットであるMKJ(Messical Knowledge Judgment dataset)を紹介する。
バイナリ分類フレームワークを通じて、MKJは、簡潔なワンホップ文の妥当性を評価することによって、LCMが基本的な医学的事実を把握できることを評価する。
論文 参考訳(メタデータ) (2025-02-20T05:27:51Z) - LLM Internal States Reveal Hallucination Risk Faced With a Query [62.29558761326031]
人間は、クエリに直面したとき、私たちが知らないことを認識できる自己認識プロセスを持っています。
本稿では,大規模言語モデルが応答生成に先立って,自身の幻覚リスクを推定できるかどうかを検討する。
確率推定器により, LLM自己評価を利用して, 平均幻覚推定精度84.32%を達成する。
論文 参考訳(メタデータ) (2024-07-03T17:08:52Z) - D-NLP at SemEval-2024 Task 2: Evaluating Clinical Inference Capabilities of Large Language Models [5.439020425819001]
大規模言語モデル(LLM)は、様々なタスクにおける顕著なパフォーマンスのために、大きな注目を集め、広く使われている。
しかし、幻覚、事実的矛盾、数値的定量的推論の限界などの問題を含む、彼ら自身の課題は存在しない。
論文 参考訳(メタデータ) (2024-05-07T10:11:14Z) - Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。
LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。
LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T08:39:17Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。