論文の概要: HalluWorld: A Controlled Benchmark for Hallucination via Reference World Models
- arxiv url: http://arxiv.org/abs/2605.19341v1
- Date: Tue, 19 May 2026 04:29:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.118352
- Title: HalluWorld: A Controlled Benchmark for Hallucination via Reference World Models
- Title(参考訳): HalluWorld: 参照ワールドモデルによる幻覚のための制御されたベンチマーク
- Authors: Emmy Liu, Varun Gangal, Michael Yu, Zhuofu Tao, Karan Singh, Sachin Kumar, Steven Y. Feng,
- Abstract要約: 幻覚は依然として大きな言語モデルの中心的な失敗モードである。
既存のベンチマークでは、要約、質問応答、検索強化生成、エージェント間相互作用など、矛盾なく運用されている。
明示的な参照ワールドの定式化を基礎としたベンチマークであるHaluWorldを紹介する。
- 参考スコア(独自算出の注目度): 24.61808957290675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hallucination remains a central failure mode of large language models, but existing benchmarks operationalize it inconsistently across summarization, question answering, retrieval-augmented generation, and agentic interaction. This fragmentation makes it unclear whether a mitigation that works in one setting reduces hallucinations across contexts. Current benchmarks either require human annotation and fixed references that may be memorized, or rely on observations in settings that are difficult to reproduce. To study root causes, we introduce HalluWorld, an extensible benchmark grounded in an explicit reference-world formulation: a model hallucinates when it produces an observable claim that is false with respect to this world. Building on this view, we construct synthetic and semi-synthetic environments in which the reference world is fully specified, the model's view is controlled, and hallucination labels are generated automatically. HalluWorld spans gridworlds, chess, and realistic terminal tasks, enabling controlled variation of world complexity, observability, temporal change, and source-conflict policy, and disentangling hallucinations into fine-grained error categories. We evaluate frontier and open-weight language models across these settings and find consistent patterns: perceptual hallucination on directly observed information is near-solved for frontier models, while multi-step state tracking and causal forward simulation remain difficult and are not generally solved by extended thinking. In the terminal setting, models also struggle with when to abstain. The uneven profile of failures across probe types and domains suggests that hallucinations arise from distinct failure modes rather than a single capability. Our results suggest that controlled reference worlds offer a scalable and reproducible path toward measuring and reducing hallucinations in modern language models.
- Abstract(参考訳): 幻覚は依然として大きな言語モデルの中心的な障害モードであるが、既存のベンチマークでは、要約、質問応答、検索強化生成、エージェント間相互作用などにおいて矛盾なく運用されている。
この断片化は、ある設定で機能する緩和がコンテキスト間の幻覚を減少させるかどうかを不明確にする。
現在のベンチマークでは、記憶されるかもしれない人間のアノテーションと固定された参照を必要とするか、再現が難しい設定での観察に依存している。
根本原因を研究するために,本研究では,明示的な参照ワールドの定式化を基礎とした拡張可能なベンチマークであるHaluWorldを紹介した。
このビューに基づいて、参照世界を完全に指定し、モデルのビューを制御し、幻覚ラベルを自動的に生成する合成・半合成環境を構築する。
HalluWorldは、グリッドワールド、チェス、現実的なターミナルタスクにまたがり、世界複雑性、可観測性、時間的変化、ソース・コンフリクトポリシーの制御されたバリエーションを可能にし、幻覚をきめ細かなエラーカテゴリに切り離す。
我々は、フロンティアとオープンウェイト言語モデルを評価し、一貫したパターンを見出す: 直接観測された情報に対する知覚幻覚はフロンティアモデルではほぼ解決されるが、マルチステップ状態追跡と因果前処理は依然として困難であり、拡張思考では一般に解決されない。
端末設定では、モデルはいつ停止するかに苦労する。
プローブタイプとドメイン間の障害の均一なプロファイルは、幻覚は単一の機能ではなく、異なる障害モードから生じることを示唆している。
この結果から,制御された参照世界は,現代言語モデルにおける幻覚の計測と低減に向けて,スケーラブルで再現可能な経路を提供する可能性が示唆された。
関連論文リスト
- HII-DPO: Eliminate Hallucination via Accurate Hallucination-Inducing Counterfactual Images [9.716231984097313]
VLM(Large Vision-Language Models)は様々なマルチモーダルタスクにおいて顕著な成功を収めているが、固有の言語バイアスに根ざした幻覚に弱いままである。
本研究では,ハロシン化誘導画像(HII)を正確に合成する新しいパイプラインを設計する。
合成HIIを用いて一貫したシーン条件の幻覚パターンを明らかにする。
提案手法は, 標準的な幻覚ベンチマークにおいて, 最先端の38%の改善を実現している。
論文 参考訳(メタデータ) (2026-02-11T02:11:02Z) - A Unified Definition of Hallucination, Or: It's the World Model, Stupid [11.845673836306231]
幻覚は単に不正確な(内部的な)世界モデリングであると主張する。
我々は、幻覚を人工的だが完全に特定された世界モデルとのミスマッチとして定義する一連のベンチマークの計画を概説する。
論文 参考訳(メタデータ) (2025-12-25T08:42:18Z) - Review of Hallucination Understanding in Large Language and Vision Models [65.29139004945712]
本稿では,多様なアプリケーションにまたがる画像とテキストの幻覚を特徴付けるフレームワークを提案する。
我々の調査によると、幻覚はデータ分布や遺伝バイアスの予測可能なパターンから生じることが多い。
この調査は、現実世界の生成AIシステムにおける幻覚に対するより堅牢で効果的なソリューションを開発する基盤を提供する。
論文 参考訳(メタデータ) (2025-09-26T09:23:08Z) - How Large Language Models are Designed to Hallucinate [0.42970700836450487]
幻覚はトランスフォーマーアーキテクチャの構造的な結果であると主張する。
本研究の貢献は,(1) 既存の説明が不十分な理由を示す比較説明,(2) 提案されたベンチマークによる実存的構造に関連付けられた幻覚の予測分類,(3) 開示の欠如を抑えることの可能な「真理に制約された」アーキテクチャへの設計方針,の3つである。
論文 参考訳(メタデータ) (2025-09-19T16:46:27Z) - HEAL: An Empirical Study on Hallucinations in Embodied Agents Driven by Large Language Models [27.72821031361892]
本研究では,大規模な言語モデルにおいて,シーン・タスクの不整合下での長時間の作業を行う幻覚に関する最初の体系的研究について述べる。
私たちのゴールは、幻覚の発生範囲、どのような不整合が引き起こされるか、現在のモデルがどのように反応するかを理解することです。
論文 参考訳(メタデータ) (2025-06-18T02:13:41Z) - HalluLens: LLM Hallucination Benchmark [49.170128733508335]
大規模言語モデル(LLM)は、しばしばユーザ入力やトレーニングデータから逸脱する応答を生成する。
本稿では,新たな内因性評価タスクと既存内因性評価タスクを併用した総合幻覚ベンチマークを提案する。
論文 参考訳(メタデータ) (2025-04-24T13:40:27Z) - Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [78.78822033285938]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:59:22Z) - AutoHallusion: Automatic Generation of Hallucination Benchmarks for Vision-Language Models [91.78328878860003]
視覚言語モデル(LVLM)は幻覚の傾向が強い。
ベンチマークは多くの場合、障害パターンが一般化できない手作りのコーナーケースに依存します。
最初の自動ベンチマーク生成手法であるAutoHallusionを開発した。
論文 参考訳(メタデータ) (2024-06-16T11:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。