論文の概要: MultiHal: Multilingual Dataset for Knowledge-Graph Grounded Evaluation of LLM Hallucinations
- arxiv url: http://arxiv.org/abs/2505.14101v1
- Date: Tue, 20 May 2025 09:03:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.95309
- Title: MultiHal: Multilingual Dataset for Knowledge-Graph Grounded Evaluation of LLM Hallucinations
- Title(参考訳): MultiHal:LLM幻覚の知識グラフ的評価のための多言語データセット
- Authors: Ernests Lavrinovics, Russa Biswas, Katja Hose, Johannes Bjerva,
- Abstract要約: 生成テキスト評価のためのtextbfMultiHal framed という多言語マルチホップベンチマークを提案する。
ベースライン評価では, KG-RAG の KG-RAG における意味的類似度スコアに対して, 絶対スケールが 0.12 から 0.36 ポイント向上した。
我々は,MultiHalが今後,グラフに基づく幻覚の緩和とファクトチェックタスクに向けた研究を促進することを期待する。
- 参考スコア(独自算出の注目度): 5.769786334333616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have inherent limitations of faithfulness and factuality, commonly referred to as hallucinations. Several benchmarks have been developed that provide a test bed for factuality evaluation within the context of English-centric datasets, while relying on supplementary informative context like web links or text passages but ignoring the available structured factual resources. To this end, Knowledge Graphs (KGs) have been identified as a useful aid for hallucination mitigation, as they provide a structured way to represent the facts about entities and their relations with minimal linguistic overhead. We bridge the lack of KG paths and multilinguality for factual language modeling within the existing hallucination evaluation benchmarks and propose a KG-based multilingual, multihop benchmark called \textbf{MultiHal} framed for generative text evaluation. As part of our data collection pipeline, we mined 140k KG-paths from open-domain KGs, from which we pruned noisy KG-paths, curating a high-quality subset of 25.9k. Our baseline evaluation shows an absolute scale increase by approximately 0.12 to 0.36 points for the semantic similarity score in KG-RAG over vanilla QA across multiple languages and multiple models, demonstrating the potential of KG integration. We anticipate MultiHal will foster future research towards several graph-based hallucination mitigation and fact-checking tasks.
- Abstract(参考訳): 大型言語モデル(LLM)は、忠実さと事実性に固有の制限があり、一般に幻覚と呼ばれる。
英語中心のデータセットのコンテキスト内での事実性評価のためのテストベッドを提供するためのベンチマークがいくつか開発されているが、Webリンクやテキストパスのような補足的な情報的コンテキストに依存しながら、利用可能な構造化された事実リソースを無視している。
この目的のために、知識グラフ(KG)は、エンティティとそれらの関係に関する事実を最小限の言語的オーバーヘッドで表現するための構造化された方法を提供するため、幻覚の緩和のための有用な助けとして特定されてきた。
我々は、既存の幻覚評価ベンチマークにおいて、実言語モデリングのためのKGパスと多言語性の欠如を橋渡しし、生成テキスト評価のためのKGベースの多言語マルチホップベンチマークである「textbf{MultiHal}」を提案する。
データ収集パイプラインの一部として、オープンドメインのKGから140kのKGパスをマイニングしました。
ベースライン評価では,KG-RAGにおける意味的類似度スコアが,複数の言語および複数のモデルにまたがるバニラQAよりも0.12~0.36ポイント向上し,KG統合の可能性を示した。
我々は,MultiHalが今後,グラフに基づく幻覚の緩和とファクトチェックタスクに向けた研究を促進することを期待する。
関連論文リスト
- Coarse-to-Fine Highlighting: Reducing Knowledge Hallucination in Large Language Models [58.952782707682815]
COFTは、異なるレベルのキーテキストにフォーカスする新しい方法であり、長いコンテキストで失われることを避ける。
知識幻覚ベンチマークの実験ではCOFTの有効性が示され、F1スコアの30%以上の性能が向上した。
論文 参考訳(メタデータ) (2024-10-19T13:59:48Z) - Retrieval-Augmented Language Model for Extreme Multi-Label Knowledge Graph Link Prediction [2.6749568255705656]
大規模言語モデル(LLM)における開放的調査のための外挿は2つの重要な問題に遭遇する。
既存の作業は、知識グラフからの情報により、より小さな言語モデルの入力を増大させることによって、この問題に対処しようとするものである。
我々は,モデルが複数の応答で外挿を行うことを可能にするために,新たなタスク,極端なマルチラベルKGリンク予測タスクを提案する。
論文 参考訳(メタデータ) (2024-05-21T10:10:56Z) - Multi-hop Question Answering over Knowledge Graphs using Large Language Models [1.8130068086063336]
複数のホップを含む知識グラフに答える能力(LLM)を評価する。
我々は、KGのサイズや性質によって、関連する情報をLLMに抽出し、供給するために異なるアプローチが必要であることを示す。
論文 参考訳(メタデータ) (2024-04-30T03:31:03Z) - KGLens: Towards Efficient and Effective Knowledge Probing of Large Language Models with Knowledge Graphs [22.53643028991214]
大きな言語モデル(LLMs)は事実を幻覚させるが、キュレートされた知識グラフ(KGs)は一般的に事実に信頼性がある。
KGsとLLMsのアライメントを測定することで、その事実を効果的に調査し、LLMsの知識盲点を特定することができる。
我々は、KGsとLLMsのアライメントを効果的かつ効率的に測定することを目的とした、トンプソンにインスパイアされたフレームワークであるKGLensを紹介する。
論文 参考訳(メタデータ) (2023-12-15T23:34:05Z) - Text2KGBench: A Benchmark for Ontology-Driven Knowledge Graph Generation
from Text [2.396908230113859]
大規模言語モデル (LLM) と創発的機能を持つ基礎モデルは、多くのNLPタスクの性能を向上させることが示されている。
オントロジーでガイドされた自然言語テキストから知識グラフ(KG)を生成する言語モデルの能力を評価するベンチマークであるText2KGBenchを提案する。
論文 参考訳(メタデータ) (2023-08-04T14:47:15Z) - Deep Bidirectional Language-Knowledge Graph Pretraining [159.9645181522436]
DRAGONは、テキストとKGを大規模に融合した言語知識基盤モデルを事前学習するための自己教師型アプローチである。
我々のモデルは、入力としてテキストセグメントと関連するKGサブグラフのペアを取り、両モードから情報を双方向に融合する。
論文 参考訳(メタデータ) (2022-10-17T18:02:52Z) - Endowing Language Models with Multimodal Knowledge Graph Representations [47.22480859519051]
最近リリースされた VisualSem KG を外部知識リポジトリとして使用しています。
我々は、KGからエンティティを取得し、そのマルチモーダル表現を使用して、下流タスクのパフォーマンスを改善する。
論文 参考訳(メタデータ) (2022-06-27T10:10:42Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。