論文の概要: Beyond Facts: Evaluating Intent Hallucination in Large Language Models
- arxiv url: http://arxiv.org/abs/2506.06539v1
- Date: Fri, 06 Jun 2025 21:10:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.313491
- Title: Beyond Facts: Evaluating Intent Hallucination in Large Language Models
- Title(参考訳): ファクトを超えて:大規模言語モデルにおける意図的幻覚の評価
- Authors: Yijie Hao, Haofei Yu, Jiaxuan You,
- Abstract要約: FAITHQAは20,068問題を含む意図幻覚の新しいベンチマークである。
我々は、最先端のモデルにおいても意図幻覚は一般的な問題であると考えている。
意図の幻覚を検出するための自動LLM生成評価指標であるCONSTRAINT SCOREを導入する。
- 参考スコア(独自算出の注目度): 13.315302240710164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When exposed to complex queries containing multiple conditions, today's large language models (LLMs) tend to produce responses that only partially satisfy the query while neglecting certain conditions. We therefore introduce the concept of Intent Hallucination. In this phenomenon, LLMs either omit (neglecting to address certain parts) or misinterpret (responding to invented query parts) elements of the given query, leading to intent hallucinated generation. To systematically evaluate intent hallucination, we introduce FAITHQA, a novel benchmark for intent hallucination that contains 20,068 problems, covering both query-only and retrieval-augmented generation (RAG) setups with varying topics and difficulty. FAITHQA is the first hallucination benchmark that goes beyond factual verification, tailored to identify the fundamental cause of intent hallucination. By evaluating various LLMs on FAITHQA, we find that (1) intent hallucination is a common issue even for state-of-the-art models, and (2) the phenomenon stems from omission or misinterpretation of LLMs. To facilitate future research, we introduce an automatic LLM generation evaluation metric, CONSTRAINT SCORE, for detecting intent hallucination. Human evaluation results demonstrate that CONSTRAINT SCORE is closer to human performance for intent hallucination compared to baselines.
- Abstract(参考訳): 複数の条件を含む複雑なクエリに晒されると、今日の大規模言語モデル(LLM)は、特定の条件を無視しながら、クエリを部分的に満たすだけの応答を生成する傾向にある。
したがって、本邦の幻覚の概念を導入する。
この現象では、LLMは与えられたクエリの省略(特定の部分に対応するために無視する)または誤解釈(発明されたクエリ部分に対応する)のいずれかであり、意図的な幻覚生成をもたらす。
意図幻覚を体系的に評価するために,20,068問題を含む意図幻覚の新しいベンチマークであるFAITHQAを導入する。
FAITHQAは、意図幻覚の根本的な原因を特定するために調整された、事実検証を超えた最初の幻覚ベンチマークである。
FAITHQA 上での様々な LLM の評価により,(1) 意図幻覚は最先端モデルにおいても一般的な問題であり,(2) 現象は LLM の欠落や誤解釈に起因していることがわかった。
今後の研究を容易にするために,意図の幻覚を検出するための自動LLM生成評価指標であるCONSTRAINT SCOREを導入する。
人間の評価結果から,ConSTRAINT SCOREは,ベースラインに比べて意図幻覚に対する人的パフォーマンスに近いことが示唆された。
関連論文リスト
- HalluLens: LLM Hallucination Benchmark [49.170128733508335]
大規模言語モデル(LLM)は、しばしばユーザ入力やトレーニングデータから逸脱する応答を生成する。
本稿では,新たな内因性評価タスクと既存内因性評価タスクを併用した総合幻覚ベンチマークを提案する。
論文 参考訳(メタデータ) (2025-04-24T13:40:27Z) - Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。
これらのモデルは、画像から様々な視覚的実体を暗黙的に認識または推測する必要がある場合、まだ幻覚に悩まされている。
本稿では,視覚的質問応答(VQA)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-12-29T23:56:01Z) - Mitigating Entity-Level Hallucination in Large Language Models [11.872916697604278]
本稿では,大規模言語モデル(LLM)における幻覚の検出・緩和手法として,幻覚検出(DRAD)に基づく動的検索拡張を提案する。
実験の結果,LDMにおける幻覚の検出と緩和の両面において,DRADは優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-12T16:47:34Z) - Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - Alleviating Hallucinations of Large Language Models through Induced
Hallucinations [67.35512483340837]
大規模言語モデル(LLM)は、不正確な情報や製造された情報を含む応答を生成するために観察されている。
幻覚を緩和するための単純なtextitInduce-then-Contrast Decoding (ICD) 戦略を提案する。
論文 参考訳(メタデータ) (2023-12-25T12:32:49Z) - A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions [40.79317187623401]
大規模言語モデル(LLM)の出現は、自然言語処理(NLP)において大きなブレークスルーとなった。
LLMは幻覚を起こす傾向があり、可視だが非現実的な内容を生成する。
この現象は、実世界の情報検索システムにおけるLCMの信頼性に対する重大な懸念を引き起こす。
論文 参考訳(メタデータ) (2023-11-09T09:25:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。