論文の概要: 'I Updated the [': The Evolution of References in the English
Wikipedia and the Implications for Altmetrics]
- arxiv url: http://arxiv.org/abs/2010.03083v1
- Date: Tue, 6 Oct 2020 23:26:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-29 19:52:46.441422
- Title: 'I Updated the <ref>': The Evolution of References in the English
Wikipedia and the Implications for Altmetrics
- Title(参考訳): i updateed the <ref>: The Evolution of References in the English Wikipedia and the Implications for Altmetrics
- Authors: Olga Zagovora, Roberto Ulloa, Katrin Weller, Fabian Fl\"ock
- Abstract要約: われわれは、2019年6月までの英語ウィキペディアで使われたすべての参照(5500万以上)のデータセットを提示する。
ウィキペディアで参照を識別し、監視する新しい手法を適用したので、それぞれの参照に対して、関連するアクション(生成、修正、削除、再試行)に関するデータを提供できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With this work, we present a publicly available dataset of the history of all
the references (more than 55 million) ever used in the English Wikipedia until
June 2019. We have applied a new method for identifying and monitoring
references in Wikipedia, so that for each reference we can provide data about
associated actions: creation, modifications, deletions, and reinsertions. The
high accuracy of this method and the resulting dataset was confirmed via a
comprehensive crowdworker labelling campaign. We use the dataset to study the
temporal evolution of Wikipedia references as well as users' editing behaviour.
We find evidence of a mostly productive and continuous effort to improve the
quality of references: (1) there is a persistent increase of reference and
document identifiers (DOI, PubMedID, PMC, ISBN, ISSN, ArXiv ID), and (2) most
of the reference curation work is done by registered humans (not bots or
anonymous editors). We conclude that the evolution of Wikipedia references,
including the dynamics of the community processes that tend to them should be
leveraged in the design of relevance indexes for altmetrics, and our dataset
can be pivotal for such effort.
- Abstract(参考訳): この研究により、2019年6月まで英語ウィキペディアで使用されていたすべての参照(5500万件以上)の歴史の公開データセットを提示する。
ウィキペディアで参照を識別し、監視する新しい手法を適用したので、それぞれの参照に対して、関連するアクション(生成、修正、削除、再試行)に関するデータを提供できる。
この手法と得られたデータセットの精度は,包括的crowdworkerラベリングキャンペーンによって確認された。
データセットを用いて、ウィキペディア参照の時間的進化とユーザの編集行動を研究する。
1)参照と文書の識別子(doi, pubmedid, pmc, isbn, issn, arxiv id)の持続的な増加、(2) 参照のキュレーション作業のほとんどは登録された人間(ボットや匿名の編集者ではない)によって行われている。
我々は、ウィキペディアの参照の進化は、それらの傾向にあるコミュニティプロセスのダイナミクスを含む、アルトメトリックの関連指標の設計に活用されるべきであり、我々のデータセットはそのような取り組みのために重要なものであると結論付けた。
関連論文リスト
- HelloFresh: LLM Evaluations on Streams of Real-World Human Editorial Actions across X Community Notes and Wikipedia edits [92.62157408704594]
HelloFreshは、本質的に動機づけられた人間のラベルによって生成された実世界のデータの連続的なストリームに基づいている。
ウィキペディアページのX(元Twitter)コミュニティノートと編集の最近のイベントをカバーしている。
テストデータの汚染とベンチマークオーバーフィッティングのリスクを軽減します。
論文 参考訳(メタデータ) (2024-06-05T16:25:57Z) - Longitudinal Assessment of Reference Quality on Wikipedia [7.823541290904653]
この研究は、その参照のレンズを通して、このグローバル百科事典の信頼性を分析する。
我々は、参照要求(RN)、すなわち引用を欠く文の割合、参照リスク(RR)、すなわち非権威的参照の割合を定義することで、参照品質の概念を運用する。
論文 参考訳(メタデータ) (2023-03-09T13:04:14Z) - Grounded Keys-to-Text Generation: Towards Factual Open-Ended Generation [92.1582872870226]
そこで我々は,新しい接地型キー・ツー・テキスト生成タスクを提案する。
タスクは、ガイドキーと接地パスのセットが与えられたエンティティに関する事実記述を生成することである。
近年のQAに基づく評価手法に着想を得て,生成した記述の事実的正当性を示す自動計量MAFEを提案する。
論文 参考訳(メタデータ) (2022-12-04T23:59:41Z) - Data-Efficient Autoregressive Document Retrieval for Fact Verification [7.935530801269922]
本稿では,自己回帰型レトリバーの学習にアノテーションを要さない遠隔スーパービジョン手法を提案する。
タスク固有の微調整, 自動回帰検索による2つのウィキペディアベースの事実検証タスクが, 完全監督に近づいたり, 超えたりできることを示す。
論文 参考訳(メタデータ) (2022-11-17T07:27:50Z) - Surfer100: Generating Surveys From Web Resources on Wikipedia-style [49.23675182917996]
先進言語モデリングの最近の進歩は、ウィキペディアのリード段落生成のための2段階の抽出的抽象的アプローチと組み合わせることができることを示す。
提案手法は,より長いウィキペディアスタイルの要約をセクションで生成するために拡張され,100件の人文調査による詳細な研究を通じて,このような手法が本アプリケーションでどのように苦しむかを検討する。
論文 参考訳(メタデータ) (2021-12-13T02:18:01Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Wiki-Reliability: A Large Scale Dataset for Content Reliability on
Wikipedia [4.148821165759295]
我々は、幅広いコンテンツ信頼性の問題に注釈を付けた英語ウィキペディア記事の最初のデータセットを構築した。
このデータセットを構築するには、Wikipediaの「テンプレート」を利用します。
ウィキペディアで最も人気のある10の信頼性関連テンプレートを選択し、ウィキペディアの記事改訂のほぼ1Mのサンプルをポジティブまたはネガティブにラベル付ける効果的な方法を提案します。
論文 参考訳(メタデータ) (2021-05-10T05:07:03Z) - SupMMD: A Sentence Importance Model for Extractive Summarization using
Maximum Mean Discrepancy [92.5683788430012]
SupMMDは、カーネルの2サンプルテストと最大の相違点に基づく、ジェネリックおよび更新の要約のための新しいテクニックである。
DUC-2004 および TAC-2009 データセット上での現在の技術状況を満たしたり超えたりすることで,SupMMD の総合的および更新的要約タスクにおける有効性を示す。
論文 参考訳(メタデータ) (2020-10-06T09:26:55Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Knowledge graph based methods for record linkage [0.0]
本稿では,レコードリンケージ問題に対処するための知識グラフを提案する。
提案手法は,bf WERLと命名され,主知識グラフ特性を利用して,埋込ベクトルを学習し,国勢調査情報を符号化する。
我々は,この手法をベンチマークデータセット上で評価し,刺激的および満足な結果の関連手法と比較した。
論文 参考訳(メタデータ) (2020-03-06T11:09:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。