論文の概要: A Geometric Taxonomy of Hallucinations in LLMs
- arxiv url: http://arxiv.org/abs/2602.13224v1
- Date: Mon, 26 Jan 2026 22:07:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 12:01:13.557257
- Title: A Geometric Taxonomy of Hallucinations in LLMs
- Title(参考訳): LLMにおける幻覚の幾何学的分類法
- Authors: Javier Marín,
- Abstract要約: 大きな言語モデルにおける「幻覚」という用語は、埋め込み空間における異なる幾何学的シグネチャと異なる現象を混同している。
本稿では,不信感,信頼感,事実的誤りの3つのタイプを識別する分類法を提案する。
この貢献は、埋め込みに基づく検出の範囲を明確にした幾何学的分類法である。
- 参考スコア(独自算出の注目度): 0.2538209532048866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The term "hallucination" in large language models conflates distinct phenomena with different geometric signatures in embedding space. We propose a taxonomy identifying three types: unfaithfulness (failure to engage with provided context), confabulation (invention of semantically foreign content), and factual error (incorrect claims within correct conceptual frames). We observe a striking asymmetry. On standard benchmarks where hallucinations are LLM-generated, detection is domain-local: AUROC 0.76-0.99 within domains, but 0.50 (chance level) across domains. Discriminative directions are approximately orthogonal between domains (mean cosine similarity -0.07). On human-crafted confabulations - invented institutions, redefined terminology, fabricated mechanisms - a single global direction achieves 0.96 AUROC with 3.8% cross-domain degradation. We interpret this divergence as follows: benchmarks capture generation artifacts (stylistic signatures of prompted fabrication), while human-crafted confabulations capture genuine topical drift. The geometric structure differs because the underlying phenomena differ. Type III errors show 0.478 AUROC - indistinguishable from chance. This reflects a theoretical constraint: embeddings encode distributional co-occurrence, not correspondence to external reality. Statements with identical contextual patterns occupy similar embedding regions regardless of truth value. The contribution is a geometric taxonomy clarifying the scope of embedding-based detection: Types I and II are detectable; Type III requires external verification mechanisms.
- Abstract(参考訳): 大きな言語モデルにおける「幻覚」という用語は、埋め込み空間における異なる幾何学的シグネチャと異なる現象を混同している。
提案する分類法は,不信感(提示された文脈に関わらない),不信感(意味的異内容の創出),事実的誤り(正確な概念的枠内での誤った主張)の3種類を識別する。
我々は印象的な非対称性を観察する。
幻覚がLLM生成される標準的なベンチマークでは、検出はドメインローカルである: AUROC 0.76-0.99 はドメイン内では0.50(チャンスレベル)である。
識別方向はドメイン間のほぼ直交である(平均コサイン類似性 -0.07)。
発明された機関、再定義された用語、製造されたメカニズム、単一のグローバルな方向は0.96 AUROCを達成し、ドメイン間の分解は3.8%である。
ベンチマークは生成アーティファクトをキャプチャする(生成の誘因的シグネチャ)一方、人造のコラボレーションは真のトピックドリフトをキャプチャする。
幾何学的構造は、基礎となる現象が異なるため異なる。
III型エラーは0.478 AUROCで、偶然と区別できない。
これは理論的制約を反映しており、外部現実とは対応せず、分布的共起をエンコードする。
同一の文脈パターンを持つ文は、真理値に関係なく、同様の埋め込み領域を占有する。
I型とII型は検出可能であり、III型は外部認証機構を必要とする。
関連論文リスト
- Detecting LLM Hallucinations via Embedding Cluster Geometry: A Three-Type Taxonomy with Measurable Signatures [0.0]
トークン埋め込みクラスタ構造における観測可能なシグネチャに基づく大規模言語モデル幻覚の幾何学的分類法を提案する。
そこで本研究では,弱い環境下での1型(中心ドリフト)と,局所的コヒーレントだが文脈的に不正確なクラスタ領域への2型(ロングウェルコンバージェンス)と,クラスター構造が存在しない3型(カバーギャップ)の3つの機能的に異なる幻覚型を同定した。
論文 参考訳(メタデータ) (2026-02-15T18:14:10Z) - What do Geometric Hallucination Detection Metrics Actually Measure? [8.084840813224597]
幻覚は、高効率なアプリケーションに生成モデルをデプロイするための障壁であり続けている。
異なる幾何学的統計が異なる種類の幻覚を捉えることを示す。
幾何学的統計量に対する領域シフトの影響を軽減するため, 単純な正規化法を提案する。
論文 参考訳(メタデータ) (2026-02-09T20:04:49Z) - Universal Latent Homeomorphic Manifolds: Cross-Domain Representation Learning via Homeomorphism Verification [4.509161738293017]
本稿では,意味表現と観察駆動型機械表現を一つの潜在構造に統一するフレームワークを提案する。
我々は、異なる意味-観測ペアによって誘導される潜在多様体が厳密に統一できるかどうかを決定するための基準として、エンホメオモルフィズムを用いる。
この基準は,(1)不完全観測からのセマンティック誘導スパース回復,(2)検証された構造整合性を持つクロスドメイン変換学習,(3)意味論的から観察空間への有効な移動によるゼロショット合成学習の3つの重要な応用に対する理論的保証を提供する。
論文 参考訳(メタデータ) (2026-01-13T23:08:16Z) - Interpretation as Linear Transformation: A Cognitive-Geometric Model of Belief and Meaning [0.0]
純粋に代数的な制約から,信念の歪曲,モチベーションの漂流,反実的評価,相互理解の限界が生じることを示す。
この認知幾何学的視点は、人間と人工両方のシステムにおける影響の境界を明確にしていると私は主張する。
論文 参考訳(メタデータ) (2025-12-10T17:13:01Z) - HypoSpace: Evaluating LLM Creativity as Set-Valued Hypothesis Generators under Underdetermination [46.896452542901805]
有限仮説集合のサンプルとして LLM を扱う診断スイートである hypoSpace を紹介する。
我々は、決定論的検証器と正確に列挙された仮説空間を持つ3つの構造化された領域において、HypoSpaceをインスタンス化する。
命令調整と推論に焦点を当てたモデル全体では、検証性はしばしば高く保たれ、ユニキネスとリカバリは許容空間が大きくなるにつれて劣化する。
論文 参考訳(メタデータ) (2025-10-17T13:00:32Z) - Distributional Semantics Tracing: A Framework for Explaining Hallucinations in Large Language Models [4.946483489399819]
大規模言語モデル(LLM)は、事実的に誤った文を生成する幻覚の傾向にある。
この研究は、3つの主要な貢献を通じて、この障害モードの本質的、アーキテクチャ的起源について調査する。
論文 参考訳(メタデータ) (2025-10-07T16:40:31Z) - Semantic F1 Scores: Fair Evaluation Under Fuzzy Class Boundaries [65.89202599399252]
本稿では,主観的,ファジィなマルチラベル分類のための新しい評価指標であるセマンティックF1スコアを提案する。
セマンティックF1は意味的に関連があるが、識別できないラベルに部分クレジットを与えることで、人間の不一致やファジィ圏の境界によって特徴付けられる領域の現実をよりよく反映する。
論文 参考訳(メタデータ) (2025-09-25T21:48:48Z) - Nested Counterfactual Identification from Arbitrary Surrogate
Experiments [95.48089725859298]
観測と実験の任意の組み合わせからネスト反事実の同定について検討した。
具体的には、任意のネストされた反事実を非ネストされたものへ写像できる反ファクト的非ネスト定理(英語版)(CUT)を証明する。
論文 参考訳(メタデータ) (2021-07-07T12:51:04Z) - Mitigating Generation Shifts for Generalized Zero-Shot Learning [52.98182124310114]
一般化ゼロショット学習(英: Generalized Zero-Shot Learning、GZSL)は、学習中に見知らぬクラスが観察できない、見つからないサンプルを認識するために意味情報(属性など)を活用するタスクである。
本稿では,未知のデータ合成を効率よく,効率的に学習するための新しい生成シフト緩和フローフレームワークを提案する。
実験結果から,GSMFlowは従来のゼロショット設定と一般化されたゼロショット設定の両方において,最先端の認識性能を実現することが示された。
論文 参考訳(メタデータ) (2021-07-07T11:43:59Z) - On Localized Discrepancy for Domain Adaptation [146.4580736832752]
本稿では,局所化後の仮説空間上で定義される局所的不一致について検討する。
2つの領域を交換すると、それらの値が異なるため、非対称な移動困難が明らかになる。
論文 参考訳(メタデータ) (2020-08-14T08:30:02Z) - Simultaneous Semantic Alignment Network for Heterogeneous Domain
Adaptation [67.37606333193357]
本稿では,カテゴリ間の相関を同時に利用し,各カテゴリ毎のセントロイドを整列させるために,aSimultaneous Semantic Alignment Network (SSAN)を提案する。
対象の擬似ラベルを利用することで、各カテゴリの特徴表現を整列させるために、ロバストな三重項中心のアライメント機構を明示的に適用する。
テキスト・ツー・イメージ、画像・画像・テキスト・ツー・テキストにわたる様々なHDAタスクの実験は、最先端のHDA手法に対するSSANの優位性を検証することに成功した。
論文 参考訳(メタデータ) (2020-08-04T16:20:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。