Fugu-MT 論文翻訳(概要): KGHaluBench: A Knowledge Graph-Based Hallucination Benchmark for Evaluating the Breadth and Depth of LLM Knowledge

論文の概要: KGHaluBench: A Knowledge Graph-Based Hallucination Benchmark for Evaluating the Breadth and Depth of LLM Knowledge

arxiv url: http://arxiv.org/abs/2602.19643v1
Date: Mon, 23 Feb 2026 09:41:46 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.755331
Title: KGHaluBench: A Knowledge Graph-Based Hallucination Benchmark for Evaluating the Breadth and Depth of LLM Knowledge
Title（参考訳）: KGHaluBench: LLM知識の幅と深さを評価するための知識グラフベースの幻覚ベンチマーク
Authors: Alex Robertson, Huizhi Liang, Mahbub Gani, Rohit Kumar, Srijith Rajamohan,
Abstract要約: 大規模言語モデル (LLM) は説得力と理解力のある言語を生成する優れた能力を持っている。既存のベンチマークは静的な質問と狭い質問によって制限されており、カバー範囲の制限と誤解を招く評価につながっている。本稿では,知識グラフに基づく幻覚ベンチマークKGHaluBenchを紹介する。
参考スコア（独自算出の注目度）: 1.845601051662407
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) possess a remarkable capacity to generate persuasive and intelligible language. However, coherence does not equate to truthfulness, as the responses often contain subtle hallucinations. Existing benchmarks are limited by static and narrow questions, leading to limited coverage and misleading evaluations. We present KGHaluBench, a Knowledge Graph-based hallucination benchmark that assesses LLMs across the breadth and depth of their knowledge, providing a fairer and more comprehensive insight into LLM truthfulness. Our framework utilises the KG to dynamically construct challenging, multifaceted questions, whose difficulty is then statistically estimated to address popularity bias. Our automated verification pipeline detects abstentions and verifies the LLM's response at both conceptual and correctness levels to identify different types of hallucinations. We evaluate 25 frontier models, using novel accuracy and hallucination metrics. The results provide a more interpretable insight into the knowledge factors that cause hallucinations across different model sizes. KGHaluBench is publicly available to support future developments in hallucination mitigation.
Abstract（参考訳）: LLM(Large Language Models)は、説得力と理解力のある言語を生成する能力を持つ。しかし、コヒーレンスはしばしば微妙な幻覚を含むため、真理に合わなかった。既存のベンチマークは静的な質問と狭い質問によって制限されており、カバー範囲の制限と誤解を招く評価につながっている。我々は、知識グラフに基づく幻覚ベンチマークであるKGHaluBenchを紹介し、LLMをその知識の幅と深さにわたって評価し、LLMの真理性に関するより公平で包括的な洞察を提供する。我々のフレームワークはKGを利用して、難解で多面的な質問を動的に構築し、その難しさを統計的に推定して人気バイアスに対処する。自動検証パイプラインは, 留意点を検出し, 概念的および正当性の両方でLCMの応答を検証し, 異なる種類の幻覚を識別する。新たな精度と幻覚測定値を用いて,25のフロンティアモデルを評価する。結果は、異なるモデルサイズにまたがる幻覚を引き起こす知識要因について、より解釈可能な洞察を与えてくれる。 KGHaluBenchは幻覚の緩和における将来の発展をサポートするために公開されている。

関連論文リスト

SHALE: A Scalable Benchmark for Fine-grained Hallucination Evaluation in LVLMs [52.03164192840023]
LVLM(Large Vision-Language Models)は、いまだ幻覚に悩まされている。本稿では,スケーラブルで制御可能で多様な評価データを生成する自動データ構築パイプラインを提案する。我々は,忠実度と事実性幻覚の両方を評価するためのベンチマークであるSHALEを構築した。
論文参考訳（メタデータ） (2025-08-13T07:58:01Z)
MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM [58.2298313720146]
マルチモーダル幻覚は多源性であり、様々な原因から生じる。既存のベンチマークでは、知覚誘発幻覚と推論誘発幻覚を適切に区別することができない。
論文参考訳（メタデータ） (2025-05-30T05:54:36Z)
HalluLens: LLM Hallucination Benchmark [49.170128733508335]
大規模言語モデル(LLM)は、しばしばユーザ入力やトレーニングデータから逸脱する応答を生成する。本稿では,新たな内因性評価タスクと既存内因性評価タスクを併用した総合幻覚ベンチマークを提案する。
論文参考訳（メタデータ） (2025-04-24T13:40:27Z)
HalluciNot: Hallucination Detection Through Context and Common Knowledge Verification [40.69033997154463]
本稿では,エンタープライズ環境での大規模言語モデル(LLM)出力の幻覚を検出するための総合システムを提案する。本稿では,企業アプリケーションにおける幻覚に特有なLDM応答の新たな分類法を提案し,それらをコンテキストベース,共通知識,企業固有の,無害な文に分類する。我々の幻覚検出モデルHDM-2は、文脈と一般的な事実(共通知識)の両方に関してLLM応答を検証する。
論文参考訳（メタデータ） (2025-04-09T17:39:41Z)
Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning [151.4060202671114]
マルチモーダル大規模言語モデル(MLLM)は、視覚言語タスクを前進させる前例のない能力を示した。本稿では,MLLMにおける幻覚に対処するためのボトムアップ推論フレームワークを提案する。本フレームワークは、認識レベル情報と認知レベルコモンセンス知識を検証・統合することにより、視覚とテキストの両方の入力における潜在的な問題に体系的に対処する。
論文参考訳（メタデータ） (2024-12-15T09:10:46Z)
Knowledge Graphs, Large Language Models, and Hallucinations: An NLP Perspective [5.769786334333616]
大規模言語モデル(LLM)は、自動テキスト生成や質問応答などを含む自然言語処理(NLP)ベースのアプリケーションに革命をもたらした。幻覚では、モデルがもっともらしい音を出すが、実際には正しくない反応を生成する。本稿では,現状のデータセットやベンチマーク,知識統合や幻覚評価の手法など,これらのオープンな課題について論じる。
論文参考訳（メタデータ） (2024-11-21T16:09:05Z)
Reefknot: A Comprehensive Benchmark for Relation Hallucination Evaluation, Analysis and Mitigation in Multimodal Large Language Models [13.48296910438554]
我々は2万以上の実世界のサンプルからなる関係幻覚を対象とする総合的なベンチマークであるReefknotを紹介した。関係幻覚を体系的に定義し、知覚的視点と認知的視点を統合するとともに、Visual Genomeのシーングラフデータセットを用いて関係ベースのコーパスを構築する。本稿では,Reefknotを含む3つのデータセットに対して,幻覚率を平均9.75%削減する信頼性に基づく新たな緩和戦略を提案する。
論文参考訳（メタデータ） (2024-08-18T10:07:02Z)
GraphEval: A Knowledge-Graph Based LLM Hallucination Evaluation Framework [1.9286785775296298]
本稿では,知識グラフ構造における情報表現に基づく幻覚評価フレームワークGraphEvalを提案する。我々のアプローチと最先端自然言語推論(NLI)モデルとの併用により、様々な幻覚ベンチマークにおけるバランスの取れた精度が向上する。
論文参考訳（メタデータ） (2024-07-15T15:11:16Z)
Knowledge Verification to Nip Hallucination in the Bud [69.79051730580014]
本研究では、アライメントデータに存在する外部知識と基礎LPM内に埋め込まれた固有の知識との矛盾を検証し、最小化することにより、幻覚を緩和する可能性を示す。本稿では,知識一貫性アライメント(KCA, Knowledge Consistent Alignment)と呼ばれる新しい手法を提案する。 6つのベンチマークで幻覚を減らし, バックボーンとスケールの異なる基礎的LCMを利用することで, KCAの優れた効果を実証した。
論文参考訳（メタデータ） (2024-01-19T15:39:49Z)
HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large Language Models [146.87696738011712]
大型言語モデル(LLM)は幻覚を生成する傾向があり、すなわち、ソースと矛盾したり、事実の知識によって検証できないコンテンツである。言語モデル(HaluEval)のための幻覚評価ベンチマーク(Halucination Evaluation benchmark)を導入する。
論文参考訳（メタデータ） (2023-05-19T15:36:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。