論文の概要: Wikipedia Reader Navigation: When Synthetic Data Is Enough
- arxiv url: http://arxiv.org/abs/2201.00812v2
- Date: Wed, 5 Jan 2022 17:46:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-02 09:37:10.865332
- Title: Wikipedia Reader Navigation: When Synthetic Data Is Enough
- Title(参考訳): ウィキペディアの読者ナビゲーション: 合成データが十分であれば
- Authors: Akhil Arora, Martin Gerlach, Tiziano Piccardi, Alberto
Garc\'ia-Dur\'an, Robert West
- Abstract要約: クリックストリームデータから生成された実ナビゲーションシーケンスと合成シーケンスの違いを定量化する。
実数列と合成配列の差は統計的に有意であるが、小さな効果の大きさで、しばしば10%以下である。
これはウィキペディアのクリックストリームデータを公開リソースとして活用するための定量的な証拠となっている。
- 参考スコア(独自算出の注目度): 11.99768070409472
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Every day millions of people read Wikipedia. When navigating the vast space
of available topics using hyperlinks, readers describe trajectories on the
article network. Understanding these navigation patterns is crucial to better
serve readers' needs and address structural biases and knowledge gaps. However,
systematic studies of navigation on Wikipedia are hindered by a lack of
publicly available data due to the commitment to protect readers' privacy by
not storing or sharing potentially sensitive data. In this paper, we ask: How
well can Wikipedia readers' navigation be approximated by using publicly
available resources, most notably the Wikipedia clickstream data? We
systematically quantify the differences between real navigation sequences and
synthetic sequences generated from the clickstream data, in 6 analyses across 8
Wikipedia language versions. Overall, we find that the differences between real
and synthetic sequences are statistically significant, but with small effect
sizes, often well below 10%. This constitutes quantitative evidence for the
utility of the Wikipedia clickstream data as a public resource: clickstream
data can closely capture reader navigation on Wikipedia and provides a
sufficient approximation for most practical downstream applications relying on
reader data. More broadly, this study provides an example for how
clickstream-like data can generally enable research on user navigation on
online platforms while protecting users' privacy.
- Abstract(参考訳): 毎日何百万人もの人々がwikipediaを読みます。
ハイパーリンクを使って利用可能なトピックの広大なスペースをナビゲートする際、読者は記事ネットワーク上で軌跡を説明する。
これらのナビゲーションパターンを理解することは、読者のニーズに応え、構造的バイアスと知識ギャップに対処するために重要である。
しかし、ウィキペディア上のナビゲーションの体系的研究は、潜在的に機密性の高いデータを保存したり共有したりしないことによって、読者のプライバシーを保護するというコミットメントのために、公開データの欠如によって妨げられている。
この論文では、ウィキペディアの読者のナビゲーションは、公開リソース、特にウィキペディアのクリックストリームデータを使って、どの程度うまく近似できるだろうか?
リンクストリームデータから生成された合成シーケンスと実際のナビゲーションシークエンスの違いを体系的に定量化し、8つのwikipedia言語バージョンで6つの分析を行った。
全体として、実数列と合成列の違いは統計的に有意であるが、効果の大きさは小さく、しばしば10%以下である。
これはwikipediaのクリックストリームデータをパブリックリソースとしての有用性を示す定量的な証拠である:clickstreamデータはwikipediaのリーダーナビゲーションを密接に捉えることができ、リーダーデータに依存するほとんどの実用的な下流アプリケーションに対して十分な近似を提供する。
より広範に、この研究は、クリックストリームのようなデータが、ユーザーのプライバシーを保護しながら、オンラインプラットフォーム上でのユーザーナビゲーションを一般的に研究できる例を提供する。
関連論文リスト
- WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - Improving Wikipedia Verifiability with AI [116.69749668874493]
私たちはSideと呼ばれるニューラルネットワークベースのシステムを開発し、彼らの主張を支持できないWikipediaの引用を識別する。
本誌の最初の引用レコメンデーションは、既存のWikipediaの引用よりも60%多い選好を集めている。
以上の結果から,Wikipediaの妥当性を高めるために,AIベースのシステムを人間と共同で活用できることが示唆された。
論文 参考訳(メタデータ) (2022-07-08T15:23:29Z) - A Large-Scale Characterization of How Readers Browse Wikipedia [13.106604261718381]
読者がウィキペディアを閲覧する方法に関する,最初の体系的な大規模分析を提示する。
Wikipediaのサーバーログからの数十億のページリクエストを使用して、読者が記事にアクセスする方法を測定します。
ナビゲーションの挙動は、非常に多様な構造によって特徴づけられる。
論文 参考訳(メタデータ) (2021-12-22T12:54:44Z) - Surfer100: Generating Surveys From Web Resources on Wikipedia-style [49.23675182917996]
先進言語モデリングの最近の進歩は、ウィキペディアのリード段落生成のための2段階の抽出的抽象的アプローチと組み合わせることができることを示す。
提案手法は,より長いウィキペディアスタイルの要約をセクションで生成するために拡張され,100件の人文調査による詳細な研究を通じて,このような手法が本アプリケーションでどのように苦しむかを検討する。
論文 参考訳(メタデータ) (2021-12-13T02:18:01Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Wiki-Reliability: A Large Scale Dataset for Content Reliability on
Wikipedia [4.148821165759295]
我々は、幅広いコンテンツ信頼性の問題に注釈を付けた英語ウィキペディア記事の最初のデータセットを構築した。
このデータセットを構築するには、Wikipediaの「テンプレート」を利用します。
ウィキペディアで最も人気のある10の信頼性関連テンプレートを選択し、ウィキペディアの記事改訂のほぼ1Mのサンプルをポジティブまたはネガティブにラベル付ける効果的な方法を提案します。
論文 参考訳(メタデータ) (2021-05-10T05:07:03Z) - Ranking the information content of distance measures [61.754016309475745]
2つの異なる距離測度を用いて保持する相対的情報を評価する統計的テストを導入する。
これにより、候補者のプールから最も情報に富んだ距離を測定することができる。
論文 参考訳(メタデータ) (2021-04-30T15:57:57Z) - Tracking Knowledge Propagation Across Wikipedia Languages [1.8447697408534176]
本稿では,ウィキペディアにおける言語間知識伝達のデータセットについて述べる。
データセットは309の言語版と3300万の記事をカバーしている。
言語版のサイズは伝播速度と関連していることがわかった。
論文 参考訳(メタデータ) (2021-03-30T18:36:13Z) - How Inclusive Are Wikipedia's Hyperlinks in Articles Covering Polarizing
Topics? [8.035521056416242]
偏光トピックの相補的な側面を記述した記事間の相互接続トポロジの影響に着目した。
トピックの異なる側面へのユーザの露出を定量化するために,多様な情報への露出の新たな尺度を導入する。
ネットワークトポロジがユーザのトピックに関する多様な情報への露出を著しく制限するケースを特定し,ユーザが知識バブルに留まることを奨励する。
論文 参考訳(メタデータ) (2020-07-16T09:19:57Z) - Learning to Summarize Passages: Mining Passage-Summary Pairs from
Wikipedia Revision Histories [110.54963847339775]
ウィキペディアページのリビジョン履歴をマイニングすることで,パス・トゥ・サマリーデータセットを自動構築する手法を提案する。
特に、本手法では、ページに追加される本体の通路と導入文を同時にマイニングする。
構築されたデータセットは、100万以上のパス・サマー・ペアを含む。
論文 参考訳(メタデータ) (2020-04-06T12:11:50Z) - Quantifying Engagement with Citations on Wikipedia [13.703047949952852]
300ページビューの1つは、参照クリックの結果である。
クリックはより短いページや低い品質のページで頻繁に行われる。
最近のコンテンツ、オープンアクセスソース、ライフイベントに関する参考資料が特に人気である。
論文 参考訳(メタデータ) (2020-01-23T15:52:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。