論文の概要: A Benchmark for the Detection of Metalinguistic Disagreements between LLMs and Knowledge Graphs
- arxiv url: http://arxiv.org/abs/2502.02896v1
- Date: Wed, 05 Feb 2025 05:37:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:29:00.216887
- Title: A Benchmark for the Detection of Metalinguistic Disagreements between LLMs and Knowledge Graphs
- Title(参考訳): LLMと知識グラフのメタ言語的相違検出のためのベンチマーク
- Authors: Bradley P. Allen, Paul T. Groth,
- Abstract要約: 本稿では,大規模言語モデル (LLM) と知識グラフ (KG) の事実的, メタ言語的相違を検出するためのベンチマークを提案する。
このようなベンチマークの概念の最初の証明はGithubで公開されている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Evaluating large language models (LLMs) for tasks like fact extraction in support of knowledge graph construction frequently involves computing accuracy metrics using a ground truth benchmark based on a knowledge graph (KG). These evaluations assume that errors represent factual disagreements. However, human discourse frequently features metalinguistic disagreement, where agents differ not on facts but on the meaning of the language used to express them. Given the complexity of natural language processing and generation using LLMs, we ask: do metalinguistic disagreements occur between LLMs and KGs? Based on an investigation using the T-REx knowledge alignment dataset, we hypothesize that metalinguistic disagreement does in fact occur between LLMs and KGs, with potential relevance for the practice of knowledge graph engineering. We propose a benchmark for evaluating the detection of factual and metalinguistic disagreements between LLMs and KGs. An initial proof of concept of such a benchmark is available on Github.
- Abstract(参考訳): 知識グラフ構築支援における事実抽出のようなタスクに対する大規模言語モデル (LLM) の評価には、知識グラフ (KG) に基づいた基礎的真理ベンチマークを用いた計算精度の指標が頻繁に必要である。
これらの評価は、誤りが事実の相違を表すと仮定する。
しかしながら、人間の言説は、エージェントが事実ではなく、それらを表現するために使われる言語の意味について異なる、メタリスティックな意見の不一致をしばしば特徴としている。
LLMを用いた自然言語処理と生成の複雑さを考えると、LLMとKGの間には金属的相違が生じますか?
T-Rexナレッジアライメントデータセットを用いた調査から,LLMとKGの間には金属的不一致が生じ,知識グラフ工学の実践に潜在的に関連がある可能性が示唆された。
本稿では,LLMとKG間の実物的,金属的不一致を検出するためのベンチマークを提案する。
このようなベンチマークの概念の最初の証明はGithubで公開されている。
関連論文リスト
- Narrative Analysis of True Crime Podcasts With Knowledge Graph-Augmented Large Language Models [8.78598447041169]
大きな言語モデル(LLM)は、複雑な物語の弧や矛盾する情報を含む物語といまだに苦労している。
最近の研究は、外部知識ベースで強化されたLLMが、結果の精度と解釈可能性を向上させることを示唆している。
本研究では,実際のポッドキャストデータの理解における知識グラフ(KG)の適用性について検討する。
論文 参考訳(メタデータ) (2024-11-01T21:49:00Z) - Traffic Light or Light Traffic? Investigating Phrasal Semantics in Large Language Models [41.233879429714925]
本研究は,フレーズ意味論を理解するためのAPIベースの大規模言語モデルの能力について批判的に考察する。
自然言語命令で指示されたフレーズ意味推論タスクの実行におけるLLMの性能を評価する。
句意味論の理解において, LLM が直面する制約を解釈するために, 詳細な誤り解析を行う。
論文 参考訳(メタデータ) (2024-10-03T08:44:17Z) - Prompting Large Language Models with Knowledge Graphs for Question Answering Involving Long-tail Facts [50.06633829833144]
大規模言語モデル(LLM)は、様々なNLPタスクを実行するのに効果的であるが、広範囲の現実世界の知識を必要とするタスクを扱うのに苦労する。
我々は,関連する疑問に答えるために,長期的事実の知識を必要とするベンチマークを提案する。
実験の結果,LLMだけでこれらの疑問に答えるのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-10T15:10:20Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - A Glitch in the Matrix? Locating and Detecting Language Model Grounding with Fakepedia [57.31074448586854]
大規模言語モデル(LLM)は、そのコンテキストで提供される新しい情報を引き出すという印象的な能力を持つ。
しかし、この文脈的基盤のメカニズムはいまだに不明である。
本稿では,Fakepedia を用いたグラウンドディング能力の研究手法を提案する。
論文 参考訳(メタデータ) (2023-12-04T17:35:42Z) - Do Large Language Models Know about Facts? [60.501902866946]
大規模言語モデル(LLM)は、最近、さまざまな自然言語処理タスクにおいて、大幅なパフォーマンス改善を推進している。
我々は,ベンチマークPinocchioを設計し,LLM内の事実知識の範囲と範囲を評価することを目的とする。
Pinocchioには、異なるソース、タイムライン、ドメイン、リージョン、言語にまたがる20万のさまざまな事実質問が含まれている。
論文 参考訳(メタデータ) (2023-10-08T14:26:55Z) - Reasoning on Graphs: Faithful and Interpretable Large Language Model
Reasoning [104.92384929827776]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な推論能力を示している。
彼らは推論中に最新の知識と幻覚を欠いている。
知識グラフ(KG)は、推論のための信頼できる知識源を提供する。
論文 参考訳(メタデータ) (2023-10-02T10:14:43Z) - ChatRule: Mining Logical Rules with Large Language Models for Knowledge
Graph Reasoning [107.61997887260056]
そこで我々は,知識グラフ上の論理ルールをマイニングするための大規模言語モデルの力を解き放つ新しいフレームワークChatRuleを提案する。
具体的には、このフレームワークは、KGのセマンティック情報と構造情報の両方を活用するLLMベースのルールジェネレータで開始される。
生成されたルールを洗練させるために、ルールランキングモジュールは、既存のKGから事実を取り入れてルール品質を推定する。
論文 参考訳(メタデータ) (2023-09-04T11:38:02Z) - IERL: Interpretable Ensemble Representation Learning -- Combining
CrowdSourced Knowledge and Distributed Semantic Representations [11.008412414253662]
大言語モデル(LLM)は、単語の意味を分散意味論の形でエンコードする。
近年の研究では、LLMは意図しない、一貫性のない、あるいは間違ったテキストを出力として生成する傾向があることが示されている。
本稿では,LLMとクラウドソースの知識表現を体系的に組み合わせた新しいアンサンブル学習手法であるInterpretable Ensemble Representation Learning (IERL)を提案する。
論文 参考訳(メタデータ) (2023-06-24T05:02:34Z) - Evaluating statistical language models as pragmatic reasoners [39.72348730045737]
我々は,語学的な発話の意味を推測するために,大規模言語モデルの能力を評価する。
LLMは、複数の複雑な実用的発話の解釈に対して、文脈的、人間的な分布を導出することができる。
結果は,統計的言語モデルの推論能力と,実践的・意味論的解析への応用について報告する。
論文 参考訳(メタデータ) (2023-05-01T18:22:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。