論文の概要: Visualizing and Benchmarking LLM Factual Hallucination Tendencies via Internal State Analysis and Clustering
- arxiv url: http://arxiv.org/abs/2602.11167v1
- Date: Sun, 18 Jan 2026 22:51:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-15 14:54:53.717414
- Title: Visualizing and Benchmarking LLM Factual Hallucination Tendencies via Internal State Analysis and Clustering
- Title(参考訳): 内部状態解析とクラスタリングによるLLMファクチュアル幻覚傾向の可視化とベンチマーク
- Authors: Nathan Mao, Varun Kaushik, Shreya Shivkumar, Parham Sharafoleslami, Kevin Zhu, Sunishchal Dev,
- Abstract要約: 大型言語モデル (LLM) はしばしば幻覚を起こし、医学や法律のような敏感な分野において特に有害な非感覚的または偽の情報を生成する。
FalseCiteは、誤解を招いたり、偽造された引用によって引き起こされた幻覚応答を捕捉し、ベンチマークするために設計された、キュレートされたデータセットである。
GPT-4o-mini, Falcon-7B, Mistral 7-BをFalseCiteで実行し, 誤認による誤認に対する幻覚活動が顕著に増加した。
- 参考スコア(独自算出の注目度): 2.357397994148727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) often hallucinate, generating nonsensical or false information that can be especially harmful in sensitive fields such as medicine or law. To study this phenomenon systematically, we introduce FalseCite, a curated dataset designed to capture and benchmark hallucinated responses induced by misleading or fabricated citations. Running GPT-4o-mini, Falcon-7B, and Mistral 7-B through FalseCite, we observed a noticeable increase in hallucination activity for false claims with deceptive citations, especially in GPT-4o-mini. Using the responses from FalseCite, we can also analyze the internal states of hallucinating models, visualizing and clustering the hidden state vectors. From this analysis, we noticed that the hidden state vectors, regardless of hallucination or non-hallucination, tend to trace out a distinct horn-like shape. Our work underscores FalseCite's potential as a foundation for evaluating and mitigating hallucinations in future LLM research.
- Abstract(参考訳): 大型言語モデル (LLM) はしばしば幻覚を起こし、医学や法律のような敏感な分野において特に有害な非感覚的または偽の情報を生成する。
この現象をシステマティックに研究するためにFalseCiteを紹介した。
GPT-4o-mini, Falcon-7B, Mistral 7-BをFalseCiteで実行し, 特にGPT-4o-miniでは, 偽主張に対する幻覚活動が顕著に増加した。
また、FalseCiteからの応答を用いて幻覚モデルの内部状態を解析し、隠れた状態ベクトルの可視化とクラスタリングを行う。
この分析から,隠れ状態ベクトルは幻覚や非幻覚によらず,異なる角状の形状を呈する傾向にあることがわかった。
我々の研究は、今後のLSM研究における幻覚の評価と緩和の基礎として、FalseCiteの可能性を浮き彫りにしている。
関連論文リスト
- Two Causes, Not One: Rethinking Omission and Fabrication Hallucinations in MLLMs [31.601057368065877]
既存の手法は、省略と製造幻覚が共通の原因を共有するという欠点のある仮定に基づいており、しばしば省略を減らし、より多くの製造を誘発する。
本研究は,視覚的特徴を言語表現にマッピングする場合に,排他的幻覚が不十分な自信から生じることを示すことによって,この見解を覆すものである。
本研究では,物体の存在や不在を視覚的証拠がどのように推測するかを明らかにする概念的枠組みである視覚意味的注意力場を提案する。
論文 参考訳(メタデータ) (2025-08-30T05:47:41Z) - Trust Me, I'm Wrong: LLMs Hallucinate with Certainty Despite Knowing the Answer [51.7407540261676]
本研究では,モデルが常に正しい解答を行うことのできる幻覚の別のタイプについて検討するが,一見自明な摂動は,高い確実性で幻覚応答を生じさせる。
この現象は特に医学や法学などの高度な領域において、モデルの確実性はしばしば信頼性の代用として使用される。
CHOKEの例は、プロンプト間で一貫性があり、異なるモデルやデータセットで発生し、他の幻覚と根本的に異なることを示す。
論文 参考訳(メタデータ) (2025-02-18T15:46:31Z) - Valuable Hallucinations: Realizable Non-realistic Propositions [2.451326684641447]
本稿では,大規模言語モデル(LLM)における価値幻覚の形式的定義について紹介する。
特定の種類の幻覚が特定の文脈で提供できる潜在的な価値に焦点を当てる。
本稿では,Qwen2.5モデルとHaluQAデータセットを用いて,幻覚の制御と最適化を促進させるReActを用いて実験を行った。
論文 参考訳(メタデータ) (2025-02-16T12:59:11Z) - Can Hallucinations Help? Boosting LLMs for Drug Discovery [8.960425754918974]
大きな言語モデル(LLM)における幻覚は、しばしば望ましくないと見なされる。
幻覚はいくつかのモデルにおいて予測精度を大幅に向上させる。
我々は18,000以上の有益な幻覚を分類し、最も影響のあるタイプとして構造的誤記が現れる。
論文 参考訳(メタデータ) (2025-01-23T16:45:51Z) - On Large Language Models' Hallucination with Regard to Known Facts [74.96789694959894]
大規模な言語モデルはファクトイドの質問に答えることに成功したが、幻覚を起こす傾向がある。
正しい解答知識を持つLLMの現象を推論力学の観点から検討する。
我々の研究は、LLMの幻覚が既知の事実について、そしてより重要なのは、幻覚を正確に予測する理由を理解することに光を当てた。
論文 参考訳(メタデータ) (2024-03-29T06:48:30Z) - Mechanistic Understanding and Mitigation of Language Model Non-Factual Hallucinations [42.46721214112836]
State-of-the-art Language Model (LM) は、世界の知識と混同する非現実的な幻覚を生じることがある。
我々は、主観的関係クエリを用いた診断データセットを作成し、内部モデル表現による幻覚の追跡に解釈可能性手法を適用した。
論文 参考訳(メタデータ) (2024-03-27T00:23:03Z) - Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。
本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。
LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文 参考訳(メタデータ) (2023-11-22T04:52:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。