論文の概要: Detecting Corpus-Level Knowledge Inconsistencies in Wikipedia with Large Language Models
- arxiv url: http://arxiv.org/abs/2509.23233v1
- Date: Sat, 27 Sep 2025 10:32:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.113667
- Title: Detecting Corpus-Level Knowledge Inconsistencies in Wikipedia with Large Language Models
- Title(参考訳): 大規模言語モデルを用いたウィキペディアにおけるコーパスレベル知識の不整合の検出
- Authors: Sina J. Semnani, Jirayu Burapacheep, Arpandeep Khatua, Thanawan Atchariyachanvanit, Zheng Wang, Monica S. Lam,
- Abstract要約: 不整合, 特定の事実的不整合に着目し, コーパスレベルの不整合検出の課題を導入する。
本稿では,LLM推論と検索を組み合わせたエージェントシステムであるCLAIREについて述べる。
経験豊富なウィキペディア編集者によるユーザスタディでは、87.5%がCLAIREを使用する際の信頼性が高く、参加者は同じ時間内に64.7%の矛盾が見つかった。
- 参考スコア(独自算出の注目度): 11.16952630564181
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Wikipedia is the largest open knowledge corpus, widely used worldwide and serving as a key resource for training large language models (LLMs) and retrieval-augmented generation (RAG) systems. Ensuring its accuracy is therefore critical. But how accurate is Wikipedia, and how can we improve it? We focus on inconsistencies, a specific type of factual inaccuracy, and introduce the task of corpus-level inconsistency detection. We present CLAIRE, an agentic system that combines LLM reasoning with retrieval to surface potentially inconsistent claims along with contextual evidence for human review. In a user study with experienced Wikipedia editors, 87.5% reported higher confidence when using CLAIRE, and participants identified 64.7% more inconsistencies in the same amount of time. Combining CLAIRE with human annotation, we contribute WIKICOLLIDE, the first benchmark of real Wikipedia inconsistencies. Using random sampling with CLAIRE-assisted analysis, we find that at least 3.3% of English Wikipedia facts contradict another fact, with inconsistencies propagating into 7.3% of FEVEROUS and 4.0% of AmbigQA examples. Benchmarking strong baselines on this dataset reveals substantial headroom: the best fully automated system achieves an AUROC of only 75.1%. Our results show that contradictions are a measurable component of Wikipedia and that LLM-based systems like CLAIRE can provide a practical tool to help editors improve knowledge consistency at scale.
- Abstract(参考訳): ウィキペディアは世界最大のオープン・ナレッジ・コーパスであり、世界中で広く利用されており、大規模言語モデル(LLM)と検索強化世代(RAG)システムのトレーニングのための重要なリソースとなっている。
そのため、正確性を確保することが重要である。
しかし、ウィキペディアはどの程度正確で、どうすれば改善できるのか?
不整合, 特定の事実的不整合に着目し, コーパスレベルの不整合検出の課題を導入する。
本稿では,LLM推論と検索を組み合わせたエージェントシステムであるCLAIREについて述べる。
経験豊富なウィキペディア編集者によるユーザスタディでは、87.5%がCLAIREを使用する際の信頼性が高く、参加者は同じ時間内に64.7%の矛盾が見つかった。
CLAIREと人間のアノテーションを組み合わせることで、実際のウィキペディアの不整合の最初のベンチマークであるWIKICOLLIDEをコントリビュートする。
CLAIREを用いたランダムサンプリングでは、少なくとも英語のウィキペディアの事実の3.3%が別の事実と矛盾しており、矛盾はFEVEROUSの7.3%、AmbigQAの4.0%に伝播している。
このデータセットの強力なベースラインをベンチマークすると、かなりのヘッドルームが明らかになる: 最高の完全自動化システムは75.1%のAUROCを達成する。
その結果、矛盾はウィキペディアの可測成分であり、CLAIREのようなLCMベースのシステムは、編集者が大規模に知識の整合性を向上させるための実用的なツールを提供することを示した。
関連論文リスト
- Factual Inconsistencies in Multilingual Wikipedia Tables [5.395647076142643]
本研究はウィキペディアの構造化コンテンツにおける言語間不整合について検討する。
ウィキペディアの多言語記事から表を収集・調整・分析する手法を開発した。
これらの洞察は、事実検証、多言語知識の相互作用、信頼性の高いAIシステムの設計に影響を及ぼす。
論文 参考訳(メタデータ) (2025-07-24T13:46:14Z) - Bidirectional LMs are Better Knowledge Memorizers? A Benchmark for Real-world Knowledge Injection [48.188285483378664]
人間の介入を必要とせず、時間とともに継続的に進化する新しい、現実的で大規模な知識注入ベンチマークを導入する。
WikiDYKはウィキペディアの「Did You Know...」エントリから最近追加された人文的な事実を活用する。
WikiDYKには12,290の事実と77,180の質問が含まれている。
論文 参考訳(メタデータ) (2025-05-18T08:39:05Z) - What Really is Commonsense Knowledge? [58.5342212738895]
我々は、既存のコモンセンス知識の定義を調査し、概念を定義するための3つのフレームワークに基礎を置き、それらをコモンセンス知識の統一的な定義に統合する。
次に、アノテーションと実験のための統合された定義をCommonsenseQAとCommonsenseQA 2.0データセットで使用します。
本研究は,2つのデータセットには非常識知識のインスタンスが多数存在し,これら2つのサブセットに対して大きな性能差があることを示す。
論文 参考訳(メタデータ) (2024-11-06T14:54:19Z) - WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。
本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。
我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文 参考訳(メタデータ) (2024-06-19T20:13:42Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - A Glitch in the Matrix? Locating and Detecting Language Model Grounding with Fakepedia [57.31074448586854]
大規模言語モデル(LLM)は、そのコンテキストで提供される新しい情報を引き出すという印象的な能力を持つ。
しかし、この文脈的基盤のメカニズムはいまだに不明である。
本稿では,Fakepedia を用いたグラウンドディング能力の研究手法を提案する。
論文 参考訳(メタデータ) (2023-12-04T17:35:42Z) - WikiSQE: A Large-Scale Dataset for Sentence Quality Estimation in
Wikipedia [14.325320851640084]
ウィキペディアにおける文質推定のための大規模データセットであるWikiSQEを提案する。
それぞれの文は、英語のウィキペディアの改訂履歴全体から抽出される。
WikiSQEには約3.4Mの文と153の品質ラベルがある。
論文 参考訳(メタデータ) (2023-05-10T06:45:13Z) - Vera: A General-Purpose Plausibility Estimation Model for Commonsense
Statements [135.09277663808322]
本稿では,コモンセンス知識に基づく宣言文の妥当性を推定する汎用モデルであるVeraを紹介する。
19のQAデータセットと2つの大規模ナレッジベースから生成された7Mのコモンセンスステートメントに基づいてトレーニングされた。
Vera は LM 生成したコモンセンス知識のフィルタリングに優れており,ChatGPT などのモデルが生成する誤ったコモンセンス文を実環境で検出するのに有用である。
論文 参考訳(メタデータ) (2023-05-05T17:15:32Z) - Longitudinal Assessment of Reference Quality on Wikipedia [7.823541290904653]
この研究は、その参照のレンズを通して、このグローバル百科事典の信頼性を分析する。
我々は、参照要求(RN)、すなわち引用を欠く文の割合、参照リスク(RR)、すなわち非権威的参照の割合を定義することで、参照品質の概念を運用する。
論文 参考訳(メタデータ) (2023-03-09T13:04:14Z) - ComFact: A Benchmark for Linking Contextual Commonsense Knowledge [31.19689856957576]
そこで我々は,KGから状況に関連のあるコモンセンス知識を特定するために,モデルにコンテキストを付与し,訓練を行う,コモンセンス事実リンクの新しい課題を提案する。
われわれの新しいベンチマークであるComFactは、4つのスタイリスティックな多様なデータセットにまたがるコモンセンスのための293kのインコンテキスト関連アノテーションを含んでいる。
論文 参考訳(メタデータ) (2022-10-23T09:30:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。