論文の概要: Being Kind Isn't Always Being Safe: Diagnosing Affective Hallucination in LLMs
- arxiv url: http://arxiv.org/abs/2508.16921v1
- Date: Sat, 23 Aug 2025 06:55:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.25304
- Title: Being Kind Isn't Always Being Safe: Diagnosing Affective Hallucination in LLMs
- Title(参考訳): LLMの幻覚の診断は、常に安全とは限りません
- Authors: Sewon Kim, Jiwon Kim, Seungwoo Shin, Hyejin Chung, Daeun Moon, Yejin Kwon, Hyunsoo Yoon,
- Abstract要約: 大きな言語モデル(LLM)は、感情的に敏感な相互作用にますます使われています。
我々は、このリスクを、情緒的な社会的存在を育む感情的に没入的な反応を生み出す、感情的幻覚(Affective Hallucination)と定義する。
AHaBenchは,500件のメンタルヘルス関連プロンプトと専門家インフォームド・リファレンス・レスポンスのベンチマークで,情緒的エンメシュメント(Emotional Enmeshment),Illusion of Presence(Illusion of Presence),Fostering Overdependence(Fostering Overdependence)の3次元で評価した。
- 参考スコア(独自算出の注目度): 10.500080793955982
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) are increasingly used in emotionally sensitive interactions, where their simulated empathy can create the illusion of genuine relational connection. We define this risk as Affective Hallucination, the production of emotionally immersive responses that foster illusory social presence despite the model's lack of affective capacity. To systematically diagnose and mitigate this risk, we introduce AHaBench, a benchmark of 500 mental health-related prompts with expert-informed reference responses, evaluated along three dimensions: Emotional Enmeshment, Illusion of Presence, and Fostering Overdependence. We further release AHaPairs, a 5K-instance preference dataset enabling Direct Preference Optimization (DPO) for alignment with emotionally responsible behavior. Experiments across multiple model families show that DPO fine-tuning substantially reduces affective hallucination without degrading core reasoning and knowledge performance. Human-model agreement analyses confirm that AHaBench reliably captures affective hallucination, validating it as an effective diagnostic tool. This work establishes affective hallucination as a distinct safety concern and provides practical resources for developing LLMs that are not only factually reliable but also psychologically safe. AHaBench and AHaPairs are accessible via https://huggingface.co/datasets/o0oMiNGo0o/AHaBench, and code for fine-tuning and evaluation are in https://github.com/0oOMiNGOo0/AHaBench. Warning: This paper contains examples of mental health-related language that may be emotionally distressing.
- Abstract(参考訳): 大規模言語モデル(LLM)は感情に敏感な相互作用にますます使われており、その模擬共感は真のリレーショナル接続の錯覚を生み出す。
我々は,このリスクを,モデルに感情能力がないにもかかわらず,情緒的な社会的存在を育む感情的没入型反応の生成である情緒的幻覚 (Affective Hallucination) と定義する。
このリスクを体系的に診断し緩和するために、専門家にインフォームドされた参照応答を伴う500のメンタルヘルス関連プロンプトのベンチマークであるAHaBenchを導入し、情緒的エンメシュメント(Emotional Enmeshment)、Illusion of Presence(Illusion of Presence)、Fostering Overdependence(OFO)の3つの次元で評価した。
さらに、5K-instance preference データセットである AHaPairs をリリースし、感情に責任のある行動と整合するダイレクト・プライス・オプティマイズ(DPO)を可能にした。
複数のモデルファミリーを対象とした実験により、DPOの微調整は、コア推論や知識性能を低下させることなく、感情の幻覚を著しく減少させることが示された。
人間モデルによる合意分析は、AHaBenchが感情の幻覚を確実に捉え、効果的な診断ツールとして検証することを確認する。
本研究は、情動幻覚を別個の安全上の懸念として確立し、現実的に信頼性があるだけでなく心理的にも安全であるLSMを開発するための実践的な資源を提供する。
AHaBenchとAHaPairsはhttps://huggingface.co/datasets/o0oMiNGo0o/AHaBenchからアクセスでき、微調整と評価のためのコードはhttps://github.com/0oOMiNGOo0/AHaBenchにある。
警告:本論文は、感情的に苦しむかもしれない精神保健関連言語の例を含む。
関連論文リスト
- MIRAGE-Bench: LLM Agent is Hallucinating and Where to Find Them [52.764019220214344]
幻覚は、大きな言語モデル(LLM)ベースのエージェントに重大なリスクをもたらす。
MIRAGE-Benchは対話型環境における幻覚の抽出と評価のための最初の統一ベンチマークである。
論文 参考訳(メタデータ) (2025-07-28T17:38:29Z) - EmotionHallucer: Evaluating Emotion Hallucinations in Multimodal Large Language Models [17.710835703681873]
MLLMにおける感情幻覚を検出し解析するための最初のベンチマークであるEmotionHallucerを紹介する。
これに基づいて、感情心理学知識と実世界のマルチモーダル知覚という2つの次元から感情幻覚を評価する。
PEP-MEKフレームワークは,選択したモデル間で感情の幻覚検出を平均9.90%改善する。
論文 参考訳(メタデータ) (2025-05-16T16:14:08Z) - HalluLens: LLM Hallucination Benchmark [49.170128733508335]
大規模言語モデル(LLM)は、しばしばユーザ入力やトレーニングデータから逸脱する応答を生成する。
本稿では,新たな内因性評価タスクと既存内因性評価タスクを併用した総合幻覚ベンチマークを提案する。
論文 参考訳(メタデータ) (2025-04-24T13:40:27Z) - Trust Me, I'm Wrong: LLMs Hallucinate with Certainty Despite Knowing the Answer [51.7407540261676]
本研究では,モデルが常に正しい解答を行うことのできる幻覚の別のタイプについて検討するが,一見自明な摂動は,高い確実性で幻覚応答を生じさせる。
この現象は特に医学や法学などの高度な領域において、モデルの確実性はしばしば信頼性の代用として使用される。
CHOKEの例は、プロンプト間で一貫性があり、異なるモデルやデータセットで発生し、他の幻覚と根本的に異なることを示す。
論文 参考訳(メタデータ) (2025-02-18T15:46:31Z) - Hallucination Detox: Sensitivity Dropout (SenD) for Large Language Model Training [7.726825072908519]
SenDはPythiaとMetaのLlamaモデルのテスト時の信頼性を最大17%向上させる。
SenDは、下流タスクのパフォーマンスに影響を与えることなく、ウィキペディア、メディカル、法務、コーディングドメインの事実精度を高める。
論文 参考訳(メタデータ) (2024-10-20T18:18:23Z) - Confabulation: The Surprising Value of Large Language Model Hallucinations [0.7249731529275342]
ナラティビティを認知的資源として活用するために,LLMのコミュニケーションの計測可能な意味的特性は,人間の正当性を反映している,と我々は主張する。
この発見は、通常、非難の否定的な理解の中で緊張を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-06-06T15:32:29Z) - A Cause-Effect Look at Alleviating Hallucination of Knowledge-grounded Dialogue Generation [51.53917938874146]
我々は,対話知識の相互作用を利用して,KGDの幻覚を緩和するための解決策を提案する。
本手法は,他の対話性能を損なうことなく幻覚を低減できることを示す。
論文 参考訳(メタデータ) (2024-04-04T14:45:26Z) - Towards Mitigating Hallucination in Large Language Models via
Self-Reflection [63.2543947174318]
大規模言語モデル(LLM)は、質問応答(QA)タスクを含む生成的および知識集約的なタスクを約束している。
本稿では,広範に採用されているLCMとデータセットを用いた医療再生QAシステムにおける幻覚現象を解析する。
論文 参考訳(メタデータ) (2023-10-10T03:05:44Z) - CASE: Aligning Coarse-to-Fine Cognition and Affection for Empathetic
Response Generation [59.8935454665427]
共感的対話モデルは、通常、感情的な側面のみを考慮するか、孤立して認知と愛情を扱う。
共感的対話生成のためのCASEモデルを提案する。
論文 参考訳(メタデータ) (2022-08-18T14:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。