論文の概要: Wiki-Reliability: A Large Scale Dataset for Content Reliability on
Wikipedia
- arxiv url: http://arxiv.org/abs/2105.04117v1
- Date: Mon, 10 May 2021 05:07:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 23:44:29.220252
- Title: Wiki-Reliability: A Large Scale Dataset for Content Reliability on
Wikipedia
- Title(参考訳): wiki-reliability: wikipediaにおけるコンテンツ信頼性のための大規模データセット
- Authors: KayYen Wong, Miriam Redi, Diego Saez-Trumper
- Abstract要約: 我々は、幅広いコンテンツ信頼性の問題に注釈を付けた英語ウィキペディア記事の最初のデータセットを構築した。
このデータセットを構築するには、Wikipediaの「テンプレート」を利用します。
ウィキペディアで最も人気のある10の信頼性関連テンプレートを選択し、ウィキペディアの記事改訂のほぼ1Mのサンプルをポジティブまたはネガティブにラベル付ける効果的な方法を提案します。
- 参考スコア(独自算出の注目度): 4.148821165759295
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Wikipedia is the largest online encyclopedia, used by algorithms and web
users as a central hub of reliable information on the web. The quality and
reliability of Wikipedia content is maintained by a community of volunteer
editors. Machine learning and information retrieval algorithms could help scale
up editors' manual efforts around Wikipedia content reliability. However, there
is a lack of large-scale data to support the development of such research. To
fill this gap, in this paper, we propose Wiki-Reliability, the first dataset of
English Wikipedia articles annotated with a wide set of content reliability
issues. To build this dataset, we rely on Wikipedia "templates". Templates are
tags used by expert Wikipedia editors to indicate content issues, such as the
presence of "non-neutral point of view" or "contradictory articles", and serve
as a strong signal for detecting reliability issues in a revision. We select
the 10 most popular reliability-related templates on Wikipedia, and propose an
effective method to label almost 1M samples of Wikipedia article revisions as
positive or negative with respect to each template. Each positive/negative
example in the dataset comes with the full article text and 20 features from
the revision's metadata. We provide an overview of the possible downstream
tasks enabled by such data, and show that Wiki-Reliability can be used to train
large-scale models for content reliability prediction. We release all data and
code for public use.
- Abstract(参考訳): Wikipediaは最大のオンライン百科事典であり、アルゴリズムやウェブユーザーがウェブ上の信頼できる情報のハブとして使っている。
Wikipediaコンテンツの品質と信頼性はボランティア編集者のコミュニティによって維持されている。
機械学習と情報検索アルゴリズムは、wikipediaコンテンツの信頼性に関する編集者の手作業のスケールアップに役立つ。
しかし、そのような研究の発展を支援する大規模なデータが不足している。
このギャップを埋めるために,本論文では,ウィキ・信頼性(Wiki-Reliability)について述べる。
このデータセットを構築するには、Wikipediaの"テンプレート"に頼っています。
テンプレートは、ウィキペディアの編集者が「中立的でない視点」や「矛盾する記事」といったコンテンツ問題を示すために使うタグであり、リビジョンにおける信頼性の問題を検出する強力なシグナルとして機能する。
ウィキペディア上で最も人気のある信頼性関連テンプレートを10種類選び、ウィキペディア記事リビジョンのほぼ100万のサンプルを各テンプレートに対して肯定的あるいは否定的にラベル付けする効果的な方法を提案する。
データセット内の各ポジティブ/ネガティブな例には、全記事テキストとリビジョンのメタデータから20の機能が含まれている。
本稿では,このようなデータによって可能となるダウンストリームタスクの概要と,コンテンツ信頼性予測のための大規模モデルのトレーニングにWiki-Reliabilityを使用できることを示す。
すべてのデータとコードを公開しています。
関連論文リスト
- Publishing Wikipedia usage data with strong privacy guarantees [6.410779699541235]
約20年間、ウィキメディア財団はウィキペディアの各ページを毎日何人訪問したかという統計を公表してきた。
2023年6月、ウィキメディア財団はこれらの統計データをより細かい粒度で公開し始めた。
本稿では、このデータ公開について、その目標、プロセスの展開開始とデータリリースの結果について述べる。
論文 参考訳(メタデータ) (2023-08-30T19:58:56Z) - Orphan Articles: The Dark Matter of Wikipedia [13.290424502717734]
われわれは,他のウィキペディア記事からのリンクを含まない記事である孤児記事について,最初の体系的な研究を行っている。
すべての記事の約15%(8.8M)の驚くほど多くのコンテンツが、ウィキペディアをナビゲートする読者には事実上見えない。
また, 孤児に新たなリンク(脱孤児化)を追加することで, 統計的に有意な可視性向上につながるという疑似実験を通じて因果的証拠を提供する。
論文 参考訳(メタデータ) (2023-06-06T18:04:33Z) - WikiSQE: A Large-Scale Dataset for Sentence Quality Estimation in
Wikipedia [14.325320851640084]
ウィキペディアにおける文質推定のための大規模データセットであるWikiSQEを提案する。
それぞれの文は、英語のウィキペディアの改訂履歴全体から抽出される。
WikiSQEには約3.4Mの文と153の品質ラベルがある。
論文 参考訳(メタデータ) (2023-05-10T06:45:13Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - Improving Wikipedia Verifiability with AI [116.69749668874493]
私たちはSideと呼ばれるニューラルネットワークベースのシステムを開発し、彼らの主張を支持できないWikipediaの引用を識別する。
本誌の最初の引用レコメンデーションは、既存のWikipediaの引用よりも60%多い選好を集めている。
以上の結果から,Wikipediaの妥当性を高めるために,AIベースのシステムを人間と共同で活用できることが示唆された。
論文 参考訳(メタデータ) (2022-07-08T15:23:29Z) - Surfer100: Generating Surveys From Web Resources on Wikipedia-style [49.23675182917996]
先進言語モデリングの最近の進歩は、ウィキペディアのリード段落生成のための2段階の抽出的抽象的アプローチと組み合わせることができることを示す。
提案手法は,より長いウィキペディアスタイルの要約をセクションで生成するために拡張され,100件の人文調査による詳細な研究を通じて,このような手法が本アプリケーションでどのように苦しむかを検討する。
論文 参考訳(メタデータ) (2021-12-13T02:18:01Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Generating Wikipedia Article Sections from Diverse Data Sources [57.23574577984244]
WikiTableTでいくつかのトレーニングとデコード戦略をベンチマークする。
我々の定性的な分析は、最良のアプローチは、流動的で高品質なテキストを生成することができるが、コヒーレンスに苦しむことがあることを示している。
論文 参考訳(メタデータ) (2020-12-29T19:35:34Z) - Scalable Recommendation of Wikipedia Articles to Editors Using
Representation Learning [1.8810916321241067]
我々は、グラフ畳み込みネットワークとDoc2Vecの上にスケーラブルなシステムを開発し、ウィキペディアの記事の表現方法を学び、編集者にパーソナライズされたレコメンデーションを提供する。
筆者らは,過去の編集結果に基づいて,最新の編集結果を予測し,編集者の履歴に基づいてモデルを検証した。
この論文で使用されるデータはすべて公開されており、ウィキペディアの記事のグラフ埋め込みなどが含まれています。
論文 参考訳(メタデータ) (2020-09-24T15:56:02Z) - WikiHist.html: English Wikipedia's Full Revision History in HTML Format [12.86558129722198]
我々は,マークアップの局所的な例を用いて大量のwikitextを解析する並列化アーキテクチャを開発した。
我々は、ウィキペディアのハイパーリンクの実証分析において、生のウィキテキストよりもWikiHist.htmlの利点を強調した。
論文 参考訳(メタデータ) (2020-01-28T10:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。