論文の概要: Publishing Wikipedia usage data with strong privacy guarantees
- arxiv url: http://arxiv.org/abs/2308.16298v2
- Date: Fri, 1 Sep 2023 18:07:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 07:03:01.503158
- Title: Publishing Wikipedia usage data with strong privacy guarantees
- Title(参考訳): Wikipediaの利用データを強力なプライバシー保証付きで公開
- Authors: Temilola Adeleye, Skye Berghel, Damien Desfontaines, Michael Hay, Isaac Johnson, Cléo Lemoisson, Ashwin Machanavajjhala, Tom Magerlein, Gabriele Modena, David Pujol, Daniel Simmons-Marengo, Hal Triedman,
- Abstract要約: 約20年間、ウィキメディア財団はウィキペディアの各ページを毎日何人訪問したかという統計を公表してきた。
2023年6月、ウィキメディア財団はこれらの統計データをより細かい粒度で公開し始めた。
本稿では、このデータ公開について、その目標、プロセスの展開開始とデータリリースの結果について述べる。
- 参考スコア(独自算出の注目度): 6.410779699541235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For almost 20 years, the Wikimedia Foundation has been publishing statistics about how many people visited each Wikipedia page on each day. This data helps Wikipedia editors determine where to focus their efforts to improve the online encyclopedia, and enables academic research. In June 2023, the Wikimedia Foundation, helped by Tumult Labs, addressed a long-standing request from Wikipedia editors and academic researchers: it started publishing these statistics with finer granularity, including the country of origin in the daily counts of page views. This new data publication uses differential privacy to provide robust guarantees to people browsing or editing Wikipedia. This paper describes this data publication: its goals, the process followed from its inception to its deployment, the algorithms used to produce the data, and the outcomes of the data release.
- Abstract(参考訳): 約20年間、ウィキメディア財団はウィキペディアの各ページを毎日何人訪問したかという統計を公表してきた。
このデータは、ウィキペディアの編集者がオンライン百科事典を改善するためにどこに力を注ぐかを決めるのに役立ち、学術的な研究を可能にする。
2023年6月、ウィキメディア財団はTumult Labsの支援を受け、ウィキペディアの編集者や学術研究者からの長年の要請に応えた。
この新たなデータパブリッシングは、ウィキペディアを閲覧または編集する人々に堅牢な保証を提供するために、差分プライバシーを使用する。
本稿では、このデータ公開について、その目標、その展開の開始から続くプロセス、データ生成に使用されるアルゴリズム、およびデータリリースの結果について説明する。
関連論文リスト
- A Test of Time: Predicting the Sustainable Success of Online Collaboration in Wikipedia [17.051622145253855]
我々は,ウィキペディア記事の持続可能な成功を予測するために,機械学習モデルを開発した。
記事が高品質であると認識されるのに時間がかかるほど、時間とともにそのステータスを維持する可能性が高くなる。
我々の分析はウィキペディア以外の幅広い集団的行動に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-10-24T20:42:53Z) - Surveying Wikipedians: a dataset of users and contributors' practices on
Wikipedia in 8 languages [0.0]
データセットはウィキペディアのユーザーに焦点を当てており、回答者の人口統計や社会経済的特徴に関する情報を含んでいる。
データは、2023年6月から7月にかけてオンラインで公開されているアンケートを用いて収集された。
論文 参考訳(メタデータ) (2023-11-14T07:39:27Z) - Leveraging Wikidata's edit history in knowledge graph refinement tasks [77.34726150561087]
編集履歴は、コミュニティが何らかのファジィで分散した合意に達する過程を表す。
Wikidataで最も重要な100のクラスから、すべてのインスタンスの編集履歴を含むデータセットを構築します。
タイプ予測タスクのための知識グラフ埋め込みモデルにおいて,この編集履歴情報を活用する2つの新しい手法を提案し,評価する。
論文 参考訳(メタデータ) (2022-10-27T14:32:45Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - Improving Wikipedia Verifiability with AI [116.69749668874493]
私たちはSideと呼ばれるニューラルネットワークベースのシステムを開発し、彼らの主張を支持できないWikipediaの引用を識別する。
本誌の最初の引用レコメンデーションは、既存のWikipediaの引用よりも60%多い選好を集めている。
以上の結果から,Wikipediaの妥当性を高めるために,AIベースのシステムを人間と共同で活用できることが示唆された。
論文 参考訳(メタデータ) (2022-07-08T15:23:29Z) - Wikipedia Reader Navigation: When Synthetic Data Is Enough [11.99768070409472]
クリックストリームデータから生成された実ナビゲーションシーケンスと合成シーケンスの違いを定量化する。
実数列と合成配列の差は統計的に有意であるが、小さな効果の大きさで、しばしば10%以下である。
これはウィキペディアのクリックストリームデータを公開リソースとして活用するための定量的な証拠となっている。
論文 参考訳(メタデータ) (2022-01-03T18:58:39Z) - Surfer100: Generating Surveys From Web Resources on Wikipedia-style [49.23675182917996]
先進言語モデリングの最近の進歩は、ウィキペディアのリード段落生成のための2段階の抽出的抽象的アプローチと組み合わせることができることを示す。
提案手法は,より長いウィキペディアスタイルの要約をセクションで生成するために拡張され,100件の人文調査による詳細な研究を通じて,このような手法が本アプリケーションでどのように苦しむかを検討する。
論文 参考訳(メタデータ) (2021-12-13T02:18:01Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Wiki-Reliability: A Large Scale Dataset for Content Reliability on
Wikipedia [4.148821165759295]
我々は、幅広いコンテンツ信頼性の問題に注釈を付けた英語ウィキペディア記事の最初のデータセットを構築した。
このデータセットを構築するには、Wikipediaの「テンプレート」を利用します。
ウィキペディアで最も人気のある10の信頼性関連テンプレートを選択し、ウィキペディアの記事改訂のほぼ1Mのサンプルをポジティブまたはネガティブにラベル付ける効果的な方法を提案します。
論文 参考訳(メタデータ) (2021-05-10T05:07:03Z) - Quantifying Engagement with Citations on Wikipedia [13.703047949952852]
300ページビューの1つは、参照クリックの結果である。
クリックはより短いページや低い品質のページで頻繁に行われる。
最近のコンテンツ、オープンアクセスソース、ライフイベントに関する参考資料が特に人気である。
論文 参考訳(メタデータ) (2020-01-23T15:52:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。