論文の概要: KGHaluBench: A Knowledge Graph-Based Hallucination Benchmark for Evaluating the Breadth and Depth of LLM Knowledge
- arxiv url: http://arxiv.org/abs/2602.19643v1
- Date: Mon, 23 Feb 2026 09:41:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.755331
- Title: KGHaluBench: A Knowledge Graph-Based Hallucination Benchmark for Evaluating the Breadth and Depth of LLM Knowledge
- Title(参考訳): KGHaluBench: LLM知識の幅と深さを評価するための知識グラフベースの幻覚ベンチマーク
- Authors: Alex Robertson, Huizhi Liang, Mahbub Gani, Rohit Kumar, Srijith Rajamohan,
- Abstract要約: 大規模言語モデル (LLM) は説得力と理解力のある言語を生成する優れた能力を持っている。
既存のベンチマークは静的な質問と狭い質問によって制限されており、カバー範囲の制限と誤解を招く評価につながっている。
本稿では,知識グラフに基づく幻覚ベンチマークKGHaluBenchを紹介する。
- 参考スコア(独自算出の注目度): 1.845601051662407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) possess a remarkable capacity to generate persuasive and intelligible language. However, coherence does not equate to truthfulness, as the responses often contain subtle hallucinations. Existing benchmarks are limited by static and narrow questions, leading to limited coverage and misleading evaluations. We present KGHaluBench, a Knowledge Graph-based hallucination benchmark that assesses LLMs across the breadth and depth of their knowledge, providing a fairer and more comprehensive insight into LLM truthfulness. Our framework utilises the KG to dynamically construct challenging, multifaceted questions, whose difficulty is then statistically estimated to address popularity bias. Our automated verification pipeline detects abstentions and verifies the LLM's response at both conceptual and correctness levels to identify different types of hallucinations. We evaluate 25 frontier models, using novel accuracy and hallucination metrics. The results provide a more interpretable insight into the knowledge factors that cause hallucinations across different model sizes. KGHaluBench is publicly available to support future developments in hallucination mitigation.
- Abstract(参考訳): LLM(Large Language Models)は、説得力と理解力のある言語を生成する能力を持つ。
しかし、コヒーレンスはしばしば微妙な幻覚を含むため、真理に合わなかった。
既存のベンチマークは静的な質問と狭い質問によって制限されており、カバー範囲の制限と誤解を招く評価につながっている。
我々は、知識グラフに基づく幻覚ベンチマークであるKGHaluBenchを紹介し、LLMをその知識の幅と深さにわたって評価し、LLMの真理性に関するより公平で包括的な洞察を提供する。
我々のフレームワークはKGを利用して、難解で多面的な質問を動的に構築し、その難しさを統計的に推定して人気バイアスに対処する。
自動検証パイプラインは, 留意点を検出し, 概念的および正当性の両方でLCMの応答を検証し, 異なる種類の幻覚を識別する。
新たな精度と幻覚測定値を用いて,25のフロンティアモデルを評価する。
結果は、異なるモデルサイズにまたがる幻覚を引き起こす知識要因について、より解釈可能な洞察を与えてくれる。
KGHaluBenchは幻覚の緩和における将来の発展をサポートするために公開されている。
関連論文リスト
- SHALE: A Scalable Benchmark for Fine-grained Hallucination Evaluation in LVLMs [52.03164192840023]
LVLM(Large Vision-Language Models)は、いまだ幻覚に悩まされている。
本稿では,スケーラブルで制御可能で多様な評価データを生成する自動データ構築パイプラインを提案する。
我々は,忠実度と事実性幻覚の両方を評価するためのベンチマークであるSHALEを構築した。
論文 参考訳(メタデータ) (2025-08-13T07:58:01Z) - HalluLens: LLM Hallucination Benchmark [49.170128733508335]
大規模言語モデル(LLM)は、しばしばユーザ入力やトレーニングデータから逸脱する応答を生成する。
本稿では,新たな内因性評価タスクと既存内因性評価タスクを併用した総合幻覚ベンチマークを提案する。
論文 参考訳(メタデータ) (2025-04-24T13:40:27Z) - Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning [151.4060202671114]
マルチモーダル大規模言語モデル(MLLM)は、視覚言語タスクを前進させる前例のない能力を示した。
本稿では,MLLMにおける幻覚に対処するためのボトムアップ推論フレームワークを提案する。
本フレームワークは、認識レベル情報と認知レベルコモンセンス知識を検証・統合することにより、視覚とテキストの両方の入力における潜在的な問題に体系的に対処する。
論文 参考訳(メタデータ) (2024-12-15T09:10:46Z) - Knowledge Graphs, Large Language Models, and Hallucinations: An NLP Perspective [5.769786334333616]
大規模言語モデル(LLM)は、自動テキスト生成や質問応答などを含む自然言語処理(NLP)ベースのアプリケーションに革命をもたらした。
幻覚では、モデルがもっともらしい音を出すが、実際には正しくない反応を生成する。
本稿では,現状のデータセットやベンチマーク,知識統合や幻覚評価の手法など,これらのオープンな課題について論じる。
論文 参考訳(メタデータ) (2024-11-21T16:09:05Z) - Reefknot: A Comprehensive Benchmark for Relation Hallucination Evaluation, Analysis and Mitigation in Multimodal Large Language Models [13.48296910438554]
我々は2万以上の実世界のサンプルからなる関係幻覚を対象とする総合的なベンチマークであるReefknotを紹介した。
関係幻覚を体系的に定義し、知覚的視点と認知的視点を統合するとともに、Visual Genomeのシーングラフデータセットを用いて関係ベースのコーパスを構築する。
本稿では,Reefknotを含む3つのデータセットに対して,幻覚率を平均9.75%削減する信頼性に基づく新たな緩和戦略を提案する。
論文 参考訳(メタデータ) (2024-08-18T10:07:02Z) - GraphEval: A Knowledge-Graph Based LLM Hallucination Evaluation Framework [1.9286785775296298]
本稿では,知識グラフ構造における情報表現に基づく幻覚評価フレームワークGraphEvalを提案する。
我々のアプローチと最先端自然言語推論(NLI)モデルとの併用により、様々な幻覚ベンチマークにおけるバランスの取れた精度が向上する。
論文 参考訳(メタデータ) (2024-07-15T15:11:16Z) - Knowledge Verification to Nip Hallucination in the Bud [69.79051730580014]
本研究では、アライメントデータに存在する外部知識と基礎LPM内に埋め込まれた固有の知識との矛盾を検証し、最小化することにより、幻覚を緩和する可能性を示す。
本稿では,知識一貫性アライメント(KCA, Knowledge Consistent Alignment)と呼ばれる新しい手法を提案する。
6つのベンチマークで幻覚を減らし, バックボーンとスケールの異なる基礎的LCMを利用することで, KCAの優れた効果を実証した。
論文 参考訳(メタデータ) (2024-01-19T15:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。