論文の概要: How Grounded is Wikipedia? A Study on Structured Evidential Support
- arxiv url: http://arxiv.org/abs/2506.12637v1
- Date: Sat, 14 Jun 2025 21:40:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.601243
- Title: How Grounded is Wikipedia? A Study on Structured Evidential Support
- Title(参考訳): Wikipediaはどんな根拠があるのか? : 構造化されたエビデンシャル・サポートに関する研究
- Authors: William Walden, Kathryn Ricci, Miriam Wanner, Zhengping Jiang, Chandler May, Rongkun Zhou, Benjamin Van Durme,
- Abstract要約: Wikipedia*lead*セクションのクレームの約20%が記事本体によってサポートされていないことを示す。
また, *are* が支持されているという主張に対する複雑な根拠的証拠の回収は, 標準的な検索手法の課題であることを示す。
- 参考スコア(独自算出の注目度): 27.55382517488165
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Wikipedia is a critical resource for modern NLP, serving as a rich repository of up-to-date and citation-backed information on a wide variety of subjects. The reliability of Wikipedia -- its groundedness in its cited sources -- is vital to this purpose. This work provides a quantitative analysis of the extent to which Wikipedia *is* so grounded and of how readily grounding evidence may be retrieved. To this end, we introduce PeopleProfiles -- a large-scale, multi-level dataset of claim support annotations on Wikipedia articles of notable people. We show that roughly 20% of claims in Wikipedia *lead* sections are unsupported by the article body; roughly 27% of annotated claims in the article *body* are unsupported by their (publicly accessible) cited sources; and >80% of lead claims cannot be traced to these sources via annotated body evidence. Further, we show that recovery of complex grounding evidence for claims that *are* supported remains a challenge for standard retrieval methods.
- Abstract(参考訳): ウィキペディアは現代のNLPにとって重要なリソースであり、様々な主題に関する最新情報と引用支援情報の豊富なリポジトリとして機能している。
ウィキペディアの信頼性は、引用された情報源の根拠であり、この目的には不可欠である。
この研究は、ウィキペディア*is*がどれほど根拠づけられているか、そしてどのように容易に根拠が取り出されるかの定量的分析を提供する。
この目的のために、我々は、有名人のウィキペディア記事に、大規模で多レベルのクレームサポートアノテーションデータセットであるPeopleProfilesを紹介した。
我々は、Wikipedia*lead*のクレームの約20%が記事本体によってサポートされ、記事*body*のアノテートされたクレームの約27%が引用されたソースによってサポートされ、そして >80% のリードクレームは、アノテートされたボディエビデンスによってこれらのソースにトレースできないことを示す。
さらに, *are* が支持されているという主張に対する複雑な根拠的証拠の回収は, 標準的な検索手法の課題であることを示す。
関連論文リスト
- Web2Wiki: Characterizing Wikipedia Linking Across the Web [19.00204665059246]
ウェブドメインの1.68%にまたがるウィキペディアのリンクは9000万以上ある。
ウィキペディアは情報目的のためにニュースや科学のウェブサイトでしばしば引用される。
ほとんどのリンクは証拠や帰属ではなく説明的な参照として機能する。
論文 参考訳(メタデータ) (2025-05-17T00:52:24Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - Improving Wikipedia Verifiability with AI [116.69749668874493]
私たちはSideと呼ばれるニューラルネットワークベースのシステムを開発し、彼らの主張を支持できないWikipediaの引用を識別する。
本誌の最初の引用レコメンデーションは、既存のWikipediaの引用よりも60%多い選好を集めている。
以上の結果から,Wikipediaの妥当性を高めるために,AIベースのシステムを人間と共同で活用できることが示唆された。
論文 参考訳(メタデータ) (2022-07-08T15:23:29Z) - Generating Literal and Implied Subquestions to Fact-check Complex Claims [64.81832149826035]
我々は、複雑なクレームを、そのクレームの正確性に影響を及ぼす「イエス・ノー・サブクエスト」の包括的集合に分解することに集中する。
我々は1000以上のクレームに対する分解のデータセットである ClaimDecomp を提示する。
これらのサブクエストは、関連する証拠を特定し、すべてのクレームを事実確認し、回答を通じて正確性を引き出すのに役立ちます。
論文 参考訳(メタデータ) (2022-05-14T00:40:57Z) - Surfer100: Generating Surveys From Web Resources on Wikipedia-style [49.23675182917996]
先進言語モデリングの最近の進歩は、ウィキペディアのリード段落生成のための2段階の抽出的抽象的アプローチと組み合わせることができることを示す。
提案手法は,より長いウィキペディアスタイルの要約をセクションで生成するために拡張され,100件の人文調査による詳細な研究を通じて,このような手法が本アプリケーションでどのように苦しむかを検討する。
論文 参考訳(メタデータ) (2021-12-13T02:18:01Z) - A Map of Science in Wikipedia [0.22843885788439797]
ウィキペディア記事と科学雑誌記事の関係を地図化する。
ウィキペディアから引用されたほとんどの雑誌記事はSTEM分野、特に生物学と医学に属する。
ウィキペディアの伝記は、STEM分野と人文科学、特に歴史を結びつける上で重要な役割を果たしている。
論文 参考訳(メタデータ) (2021-10-26T15:44:32Z) - WhatTheWikiFact: Fact-Checking Claims Against Wikipedia [17.36054090232896]
ウィキペディアを用いた自動クレーム検証システムWhatTheWikiFactを提案する。
システムは、入力要求の信頼性を予測し、さらに、検証プロセスの一部として取得された証拠を示します。
論文 参考訳(メタデータ) (2021-04-16T12:23:56Z) - HoVer: A Dataset for Many-Hop Fact Extraction And Claim Verification [74.66819506353086]
HoVerはマルチホップエビデンス抽出と事実検証のためのデータセットである。
クレームに関連するいくつかのウィキペディア記事から事実を抽出するモデルに挑戦する。
3/4ホップのクレームのほとんどは複数の文で書かれており、長距離依存関係を理解する複雑さが増している。
論文 参考訳(メタデータ) (2020-11-05T20:33:11Z) - Quantifying Engagement with Citations on Wikipedia [13.703047949952852]
300ページビューの1つは、参照クリックの結果である。
クリックはより短いページや低い品質のページで頻繁に行われる。
最近のコンテンツ、オープンアクセスソース、ライフイベントに関する参考資料が特に人気である。
論文 参考訳(メタデータ) (2020-01-23T15:52:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。