論文の概要: How Grounded is Wikipedia? A Study on Structured Evidential Support and Retrieval
- arxiv url: http://arxiv.org/abs/2506.12637v2
- Date: Wed, 08 Oct 2025 20:04:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 15:34:28.551063
- Title: How Grounded is Wikipedia? A Study on Structured Evidential Support and Retrieval
- Title(参考訳): Wikipediaはどんな根拠があるのか? : 構造化されたエビデンシャルサポートと検索に関する研究
- Authors: William Walden, Kathryn Ricci, Miriam Wanner, Zhengping Jiang, Chandler May, Rongkun Zhou, Benjamin Van Durme,
- Abstract要約: この研究は、ウィキペディアの接地状況と、どんなにきめ細かな接地証拠を検索できるかを分析します。
ウィキペディアのリードセクションにおける主張の22%が記事本体によって支持されていないことを示している。
複雑な証拠の検索は、最近の推論のリランカーでさえ、依然として課題であることも示しています。
- 参考スコア(独自算出の注目度): 37.74733521393654
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Wikipedia is a critical resource for modern NLP, serving as a rich repository of up-to-date and citation-backed information on a wide variety of subjects. The reliability of Wikipedia -- its groundedness in its cited sources -- is vital to this purpose. This work analyzes both how grounded Wikipedia is and how readily fine-grained grounding evidence can be retrieved. To this end, we introduce PeopleProfiles -- a large-scale, multi-level dataset of claim support annotations on biographical Wikipedia articles. We show that: (1) ~22% of claims in Wikipedia lead sections are unsupported by the article body; (2) ~30% of claims in the article body are unsupported by their publicly accessible sources; and (3) real-world Wikipedia citation practices often differ from documented standards. Finally, we show that complex evidence retrieval remains a challenge -- even for recent reasoning rerankers.
- Abstract(参考訳): ウィキペディアは現代のNLPにとって重要なリソースであり、様々な主題に関する最新情報と引用支援情報の豊富なリポジトリとして機能している。
ウィキペディアの信頼性は、引用された情報源の根拠であり、この目的には不可欠である。
この研究は、ウィキペディアの接地状況と、よりきめ細やかな接地証拠の検索方法の両方を分析します。
この目的のために我々は、伝記ウィキペディアの記事に、大規模で多レベルのクレームサポートアノテーションのデータセットであるPeopleProfilesを紹介した。
1)ウィキペディアのリードセクションにおけるクレームの約22%は記事本体によって支持され、(2)記事本体におけるクレームの約30%は、一般に公開されているソースによって支持され、(3)現実世界のウィキペディアの引用慣行は、文書化された標準としばしば異なる。
最後に、最近の推論のリランカーであっても、複雑な証拠の検索は依然として課題であることを示す。
関連論文リスト
- Web2Wiki: Characterizing Wikipedia Linking Across the Web [19.00204665059246]
ウェブドメインの1.68%にまたがるウィキペディアのリンクは9000万以上ある。
ウィキペディアは情報目的のためにニュースや科学のウェブサイトでしばしば引用される。
ほとんどのリンクは証拠や帰属ではなく説明的な参照として機能する。
論文 参考訳(メタデータ) (2025-05-17T00:52:24Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - Improving Wikipedia Verifiability with AI [116.69749668874493]
私たちはSideと呼ばれるニューラルネットワークベースのシステムを開発し、彼らの主張を支持できないWikipediaの引用を識別する。
本誌の最初の引用レコメンデーションは、既存のWikipediaの引用よりも60%多い選好を集めている。
以上の結果から,Wikipediaの妥当性を高めるために,AIベースのシステムを人間と共同で活用できることが示唆された。
論文 参考訳(メタデータ) (2022-07-08T15:23:29Z) - Generating Literal and Implied Subquestions to Fact-check Complex Claims [64.81832149826035]
我々は、複雑なクレームを、そのクレームの正確性に影響を及ぼす「イエス・ノー・サブクエスト」の包括的集合に分解することに集中する。
我々は1000以上のクレームに対する分解のデータセットである ClaimDecomp を提示する。
これらのサブクエストは、関連する証拠を特定し、すべてのクレームを事実確認し、回答を通じて正確性を引き出すのに役立ちます。
論文 参考訳(メタデータ) (2022-05-14T00:40:57Z) - Surfer100: Generating Surveys From Web Resources on Wikipedia-style [49.23675182917996]
先進言語モデリングの最近の進歩は、ウィキペディアのリード段落生成のための2段階の抽出的抽象的アプローチと組み合わせることができることを示す。
提案手法は,より長いウィキペディアスタイルの要約をセクションで生成するために拡張され,100件の人文調査による詳細な研究を通じて,このような手法が本アプリケーションでどのように苦しむかを検討する。
論文 参考訳(メタデータ) (2021-12-13T02:18:01Z) - A Map of Science in Wikipedia [0.22843885788439797]
ウィキペディア記事と科学雑誌記事の関係を地図化する。
ウィキペディアから引用されたほとんどの雑誌記事はSTEM分野、特に生物学と医学に属する。
ウィキペディアの伝記は、STEM分野と人文科学、特に歴史を結びつける上で重要な役割を果たしている。
論文 参考訳(メタデータ) (2021-10-26T15:44:32Z) - WhatTheWikiFact: Fact-Checking Claims Against Wikipedia [17.36054090232896]
ウィキペディアを用いた自動クレーム検証システムWhatTheWikiFactを提案する。
システムは、入力要求の信頼性を予測し、さらに、検証プロセスの一部として取得された証拠を示します。
論文 参考訳(メタデータ) (2021-04-16T12:23:56Z) - HoVer: A Dataset for Many-Hop Fact Extraction And Claim Verification [74.66819506353086]
HoVerはマルチホップエビデンス抽出と事実検証のためのデータセットである。
クレームに関連するいくつかのウィキペディア記事から事実を抽出するモデルに挑戦する。
3/4ホップのクレームのほとんどは複数の文で書かれており、長距離依存関係を理解する複雑さが増している。
論文 参考訳(メタデータ) (2020-11-05T20:33:11Z) - Quantifying Engagement with Citations on Wikipedia [13.703047949952852]
300ページビューの1つは、参照クリックの結果である。
クリックはより短いページや低い品質のページで頻繁に行われる。
最近のコンテンツ、オープンアクセスソース、ライフイベントに関する参考資料が特に人気である。
論文 参考訳(メタデータ) (2020-01-23T15:52:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。