論文の概要: A Unified Definition of Hallucination, Or: It's the World Model, Stupid
- arxiv url: http://arxiv.org/abs/2512.21577v1
- Date: Thu, 25 Dec 2025 08:42:18 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:53:08.625613
- Title: A Unified Definition of Hallucination, Or: It's the World Model, Stupid
- Title(参考訳): 幻覚の統一的定義:それは世界モデル、Stupid
- Authors: Emmy Liu, Varun Gangal, Chelsea Zou, Xiaoqi Huang, Michael Yu, Alex Chang, Zhuofu Tao, Sachin Kumar, Steven Y. Feng,
- Abstract要約: 幻覚は単に不正確な(内部的な)世界モデリングであると主張する。
我々は、幻覚を人工的だが完全に特定された世界モデルとのミスマッチとして定義する一連のベンチマークの計画を概説する。
- 参考スコア(独自算出の注目度): 11.845673836306231
- License:
- Abstract: Despite numerous attempts to solve the issue of hallucination since the inception of neural language models, it remains a problem in even frontier large language models today. Why is this the case? We walk through definitions of hallucination used in the literature from a historical perspective up to the current day, and fold them into a single definition of hallucination, wherein different prior definitions focus on different aspects of our definition. At its core, we argue that hallucination is simply inaccurate (internal) world modeling, in a form where it is observable to the user (e.g., stating a fact which contradicts a knowledge base, or producing a summary which contradicts a known source). By varying the reference world model as well as the knowledge conflict policy (e.g., knowledge base vs. in-context), we arrive at the different existing definitions of hallucination present in the literature. We argue that this unified view is useful because it forces evaluations to make clear their assumed "world" or source of truth, clarifies what should and should not be called hallucination (as opposed to planning or reward/incentive-related errors), and provides a common language to compare benchmarks and mitigation techniques. Building on this definition, we outline plans for a family of benchmarks in which hallucinations are defined as mismatches with synthetic but fully specified world models in different environments, and sketch out how these benchmarks can use such settings to stress-test and improve the world modeling components of language models.
- Abstract(参考訳): ニューラル言語モデルが登場して以来、幻覚の問題を解決しようとする試みは数多くあるが、現在でもフロンティアの大規模言語モデルにおいても問題となっている。
なぜそうなるのか?
文献で使われている幻覚の定義を、歴史的視点から現在まで分析し、それらを単一の幻覚の定義に折り畳み、異なる事前定義は、我々の定義の異なる側面に焦点を当てる。
その中核として、幻覚は単に不正確な(内部的な)世界モデリングであり、ユーザにとって観測可能な形式である(例えば、知識ベースに矛盾する事実を述べたり、既知の情報源に矛盾する要約を生成する)。
参照世界モデルと知識紛争政策(例えば、知識ベースと文脈内)を変えることで、文献に存在する幻覚の定義の相違にたどり着く。
この統一された見解は、評価者が想定される「世界」や真理の源泉を明確にし、幻覚(計画や報酬、インセンティブ関連の誤りとは対照的に)と呼ばれるべきでないことを明確にし、ベンチマークと緩和技術を比較する共通の言語を提供するために有用である、と我々は主張する。
この定義に基づいて、幻覚を、異なる環境で完全に規定された世界モデルとのミスマッチとして定義する一連のベンチマークの計画を概説し、これらのベンチマークがどのようにしてそのような設定を用いて言語モデルの世界モデリングコンポーネントをストレステストし改善するかをスケッチする。
関連論文リスト
- Hallucination is Inevitable for LLMs with the Open World Assumption [10.473344768196908]
大言語モデル(LLM)は印象的な言語能力を示すが、不正確または製造されたアウトプットも生成する(しばしば幻覚と呼ばれる)。」
本稿では,一般化問題の顕在化として「幻覚」を再構成する。
論文 参考訳(メタデータ) (2025-09-29T13:38:44Z) - Review of Hallucination Understanding in Large Language and Vision Models [65.29139004945712]
本稿では,多様なアプリケーションにまたがる画像とテキストの幻覚を特徴付けるフレームワークを提案する。
我々の調査によると、幻覚はデータ分布や遺伝バイアスの予測可能なパターンから生じることが多い。
この調査は、現実世界の生成AIシステムにおける幻覚に対するより堅牢で効果的なソリューションを開発する基盤を提供する。
論文 参考訳(メタデータ) (2025-09-26T09:23:08Z) - How Large Language Models are Designed to Hallucinate [0.42970700836450487]
幻覚はトランスフォーマーアーキテクチャの構造的な結果であると主張する。
本研究の貢献は,(1) 既存の説明が不十分な理由を示す比較説明,(2) 提案されたベンチマークによる実存的構造に関連付けられた幻覚の予測分類,(3) 開示の欠如を抑えることの可能な「真理に制約された」アーキテクチャへの設計方針,の3つである。
論文 参考訳(メタデータ) (2025-09-19T16:46:27Z) - Trust Me, I'm Wrong: LLMs Hallucinate with Certainty Despite Knowing the Answer [51.7407540261676]
本研究では,モデルが常に正しい解答を行うことのできる幻覚の別のタイプについて検討するが,一見自明な摂動は,高い確実性で幻覚応答を生じさせる。
この現象は特に医学や法学などの高度な領域において、モデルの確実性はしばしば信頼性の代用として使用される。
CHOKEの例は、プロンプト間で一貫性があり、異なるモデルやデータセットで発生し、他の幻覚と根本的に異なることを示す。
論文 参考訳(メタデータ) (2025-02-18T15:46:31Z) - Knowledge Overshadowing Causes Amalgamated Hallucination in Large Language Models [65.32990889402927]
「我々はこの現象を知識の誇張として造る。」
その結果, 幻覚率の増大は, 不均衡比と支配的条件記述の長さに左右されることがわかった。
本稿では,その発生前に幻覚をキャッチするための信号として,オーバーシェーディング条件を用いることを提案する。
論文 参考訳(メタデータ) (2024-07-10T20:37:42Z) - AutoHallusion: Automatic Generation of Hallucination Benchmarks for Vision-Language Models [91.78328878860003]
視覚言語モデル(LVLM)は幻覚の傾向が強い。
ベンチマークは多くの場合、障害パターンが一般化できない手作りのコーナーケースに依存します。
最初の自動ベンチマーク生成手法であるAutoHallusionを開発した。
論文 参考訳(メタデータ) (2024-06-16T11:44:43Z) - Quantity Matters: Towards Assessing and Mitigating Number Hallucination in Large Vision-Language Models [57.42800112251644]
本研究では,画像中の特定の物体の数を誤って識別するモデルを参照しながら,特定の種類の幻覚数幻覚に焦点を当てた。
そこで,本研究では,数幻覚を減らすための一貫性向上を目的としたトレーニング手法を考案し,直接微調整法よりも8%の性能向上を図った。
論文 参考訳(メタデータ) (2024-03-03T02:31:11Z) - Hallucinations in Neural Automatic Speech Recognition: Identifying
Errors and Hallucinatory Models [11.492702369437785]
幻覚は、ソースの発声とは意味的に無関係であるが、それでも流動的でコヒーレントである。
単語誤り率などの一般的なメトリクスは、幻覚モデルと非幻覚モデルとを区別できないことを示す。
本研究は,幻覚を識別する枠組みを考案し,その意味的関係と基礎的真理と流布との関係を解析する。
論文 参考訳(メタデータ) (2024-01-03T06:56:56Z) - Do Androids Know They're Only Dreaming of Electric Sheep? [45.513432353811474]
我々は,その幻覚行動を予測するために,トランスフォーマー言語モデルの内部表現を訓練したプローブを設計する。
我々の探査機は訓練が狭く、訓練領域に敏感であることが分かりました。
モデル状態が利用可能である場合,探索は言語モデル幻覚評価に代わる実現可能かつ効率的な代替手段であることが判明した。
論文 参考訳(メタデータ) (2023-12-28T18:59:50Z) - On the Origin of Hallucinations in Conversational Models: Is it the
Datasets or the Models? [32.41234580068662]
既存の知識基盤型対話型ベンチマークといくつかの最先端モデルについて検討する。
標準ベンチマークは60%以上の幻覚応答で構成されており、幻覚だけでなく幻覚を増幅するモデルにつながっている。
この結果から,既存のデータセットやモデルの品質に関する重要な疑問が浮かび上がっている。
論文 参考訳(メタデータ) (2022-04-17T05:15:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。