論文の概要: Rethinking Hallucinations: Correctness, Consistency, and Prompt Multiplicity
- arxiv url: http://arxiv.org/abs/2602.00723v1
- Date: Sat, 31 Jan 2026 13:29:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.358438
- Title: Rethinking Hallucinations: Correctness, Consistency, and Prompt Multiplicity
- Title(参考訳): 幻覚を再考する: 正確性、一貫性、即効性
- Authors: Prakhar Ganesh, Reza Shokri, Golnoosh Farnadi,
- Abstract要約: 大規模言語モデル(LLM)は、誤りや誤解を招くアウトプットを生成することで「幻滅する」ことが知られている。
LLM評価における一貫性の定量化のためのフレームワークであるProperced multiplicityを導入する。
幻覚の検出と緩和における一貫性の役割について検討する。
- 参考スコア(独自算出の注目度): 23.68691022958444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are known to "hallucinate" by generating false or misleading outputs. Hallucinations pose various harms, from erosion of trust to widespread misinformation. Existing hallucination evaluation, however, focuses only on correctness and often overlooks consistency, necessary to distinguish and address these harms. To bridge this gap, we introduce prompt multiplicity, a framework for quantifying consistency in LLM evaluations. Our analysis reveals significant multiplicity (over 50% inconsistency in benchmarks like Med-HALT), suggesting that hallucination-related harms have been severely misunderstood. Furthermore, we study the role of consistency in hallucination detection and mitigation. We find that: (a) detection techniques detect consistency, not correctness, and (b) mitigation techniques like RAG, while beneficial, can introduce additional inconsistencies. By integrating prompt multiplicity into hallucination evaluation, we provide an improved framework of potential harms and uncover critical limitations in current detection and mitigation strategies.
- Abstract(参考訳): 大規模言語モデル(LLM)は、誤りや誤解を招くアウトプットを生成することで「幻滅する」ことが知られている。
幻覚は、信頼の侵食から広範な誤報まで、様々な害をもたらす。
しかし、既存の幻覚評価は、正しさのみに焦点を当て、これらの害を識別し対処するために必要な一貫性を見落としていることが多い。
このギャップを埋めるために,LLM評価における一貫性を定量化するためのフレームワークであるプロンプト乗法を導入する。
解析の結果,Med-HALTなどのベンチマークでは50%以上の不整合がみられ,幻覚関連障害がひどく誤解されていることが示唆された。
さらに,幻覚の検出と緩和における一貫性の役割について検討した。
以下に示す。
(a)検出技術は、正確性ではなく、一貫性を検知し、
(b)RAGのような緩和技術は有益であるが、さらなる矛盾をもたらす可能性がある。
幻覚評価に急激な乗法を組み込むことで、潜在的な害の枠組みを改良し、現在の検出・緩和戦略における限界を明らかにする。
関連論文リスト
- Chain-of-Thought Prompting Obscures Hallucination Cues in Large Language Models: An Empirical Evaluation [9.540386616651295]
CoT(Chain-of-Thought)は、ステップバイステップ推論を奨励することによって幻覚を緩和する。
我々の研究は、推論の利用における見落とされがちなトレードオフを浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-20T15:49:37Z) - MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM [58.2298313720146]
マルチモーダル幻覚は多源性であり、様々な原因から生じる。
既存のベンチマークでは、知覚誘発幻覚と推論誘発幻覚を適切に区別することができない。
論文 参考訳(メタデータ) (2025-05-30T05:54:36Z) - HalluLens: LLM Hallucination Benchmark [49.170128733508335]
大規模言語モデル(LLM)は、しばしばユーザ入力やトレーニングデータから逸脱する応答を生成する。
本稿では,新たな内因性評価タスクと既存内因性評価タスクを併用した総合幻覚ベンチマークを提案する。
論文 参考訳(メタデータ) (2025-04-24T13:40:27Z) - Trust Me, I'm Wrong: LLMs Hallucinate with Certainty Despite Knowing the Answer [51.7407540261676]
本研究では,モデルが常に正しい解答を行うことのできる幻覚の別のタイプについて検討するが,一見自明な摂動は,高い確実性で幻覚応答を生じさせる。
この現象は特に医学や法学などの高度な領域において、モデルの確実性はしばしば信頼性の代用として使用される。
CHOKEの例は、プロンプト間で一貫性があり、異なるモデルやデータセットで発生し、他の幻覚と根本的に異なることを示す。
論文 参考訳(メタデータ) (2025-02-18T15:46:31Z) - Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning [151.4060202671114]
マルチモーダル大規模言語モデル(MLLM)は、視覚言語タスクを前進させる前例のない能力を示した。
本稿では,MLLMにおける幻覚に対処するためのボトムアップ推論フレームワークを提案する。
本フレームワークは、認識レベル情報と認知レベルコモンセンス知識を検証・統合することにより、視覚とテキストの両方の入力における潜在的な問題に体系的に対処する。
論文 参考訳(メタデータ) (2024-12-15T09:10:46Z) - In-Context Sharpness as Alerts: An Inner Representation Perspective for
Hallucination Mitigation [36.31646727970656]
大規模言語モデル(LLM)は、しばしば幻覚を起こし、事実の誤りを引き起こす。
正しい世代は、不正な世代に比べて、コンテキスト内のトークンの隠された状態において、よりシャープなコンテキストアクティベーションを持つ傾向がある。
本研究では,テキスト内隠れ状態のシャープネス'を定量化し,デコード処理に組み込むエントロピーに基づく計量法を提案する。
論文 参考訳(メタデータ) (2024-03-03T15:53:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。