論文の概要: Tracking Knowledge Propagation Across Wikipedia Languages
- arxiv url: http://arxiv.org/abs/2103.16613v1
- Date: Tue, 30 Mar 2021 18:36:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 03:33:28.006095
- Title: Tracking Knowledge Propagation Across Wikipedia Languages
- Title(参考訳): wikipedia 言語間の知識伝達の追跡
- Authors: Roldolfo Valentim, Giovanni Comarela, Souneil Park and Diego
Saez-Trumper
- Abstract要約: 本稿では,ウィキペディアにおける言語間知識伝達のデータセットについて述べる。
データセットは309の言語版と3300万の記事をカバーしている。
言語版のサイズは伝播速度と関連していることがわかった。
- 参考スコア(独自算出の注目度): 1.8447697408534176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a dataset of inter-language knowledge propagation
in Wikipedia. Covering the entire 309 language editions and 33M articles, the
dataset aims to track the full propagation history of Wikipedia concepts, and
allow follow up research on building predictive models of them. For this
purpose, we align all the Wikipedia articles in a language-agnostic manner
according to the concept they cover, which results in 13M propagation
instances. To the best of our knowledge, this dataset is the first to explore
the full inter-language propagation at a large scale. Together with the
dataset, a holistic overview of the propagation and key insights about the
underlying structural factors are provided to aid future research. For example,
we find that although long cascades are unusual, the propagation tends to
continue further once it reaches more than four language editions. We also find
that the size of language editions is associated with the speed of propagation.
We believe the dataset not only contributes to the prior literature on
Wikipedia growth but also enables new use cases such as edit recommendation for
addressing knowledge gaps, detection of disinformation, and cultural
relationship analysis.
- Abstract(参考訳): 本稿では,wikipediaにおける言語間知識伝達のデータセットを提案する。
このデータセットは、309の言語版と3300万の記事全体をカバーし、Wikipediaのコンセプトの完全な伝播履歴を追跡し、それらの予測モデルの構築に関する研究の追跡を可能にする。
この目的のために、ウィキペディアの全ての記事は、それらがカバーする概念に従って言語に依存しない方法で整列する。
我々の知る限りでは、このデータセットは、大規模に言語間の完全な伝播を探求する最初のものである。
データセットとともに、伝播の全体的概要と基礎となる構造的要因に関する重要な洞察が、将来の研究を支援するために提供される。
例えば、長いカスケードは珍しいが、4つ以上の言語版に到達した後も伝播は継続する傾向にある。
また,言語版のサイズは伝播速度と関連していることがわかった。
このデータセットはウィキペディアの成長に関する文献に貢献するだけでなく、知識ギャップに対処するための編集勧告、偽情報の検出、文化関係分析などの新しいユースケースも可能にしていると考えている。
関連論文リスト
- Locating Information Gaps and Narrative Inconsistencies Across Languages: A Case Study of LGBT People Portrayals on Wikipedia [49.80565462746646]
我々は,情報ギャップと矛盾を事実レベルで特定するための,効率的かつ信頼性の高い手法であるInfoGap法を紹介した。
我々は、LGBTの人々の描写を分析してInfoGapを評価し、英語、ロシア語、フランス語のウィキペディアの2.7Kの伝記ページを解析した。
論文 参考訳(メタデータ) (2024-10-05T20:40:49Z) - An Open Multilingual System for Scoring Readability of Wikipedia [3.992677070507323]
ウィキペディア記事の読みやすさを評価するための多言語モデルを開発した。
ウィキペディアから簡略化されたウィキペディアやオンラインの子供まで、14言語にまたがる新しい多言語データセットを作成します。
我々のモデルはゼロショットシナリオでよく機能し、14言語で80%以上のランキング精度が得られることを示す。
論文 参考訳(メタデータ) (2024-06-03T23:07:18Z) - Curious Rhythms: Temporal Regularities of Wikipedia Consumption [15.686850035802667]
日中交替のグローバルなパターンを除去した後も,個々の物品の消費習慣は日中変化が強く維持されていることを示す。
我々はウィキペディアの記事のアクセスリズムの話題的・文脈的相関を調査し、記事の話題、読者国、アクセスデバイス(モバイル対デスクトップ)が日々の注意パターンの重要な予測因子であることを示す。
論文 参考訳(メタデータ) (2023-05-16T14:48:08Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - Considerations for Multilingual Wikipedia Research [1.5736899098702972]
ウィキペディアの非英語版は、データセットやモデルにさらに多くの言語版が組み込まれている。
本論文は,ウィキペディアの異なる言語版間でどのような違いが生じるのか,研究者が理解するための背景を提供することを目的とする。
論文 参考訳(メタデータ) (2022-04-05T20:34:15Z) - Surfer100: Generating Surveys From Web Resources on Wikipedia-style [49.23675182917996]
先進言語モデリングの最近の進歩は、ウィキペディアのリード段落生成のための2段階の抽出的抽象的アプローチと組み合わせることができることを示す。
提案手法は,より長いウィキペディアスタイルの要約をセクションで生成するために拡張され,100件の人文調査による詳細な研究を通じて,このような手法が本アプリケーションでどのように苦しむかを検討する。
論文 参考訳(メタデータ) (2021-12-13T02:18:01Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Multiple Texts as a Limiting Factor in Online Learning: Quantifying
(Dis-)similarities of Knowledge Networks across Languages [60.00219873112454]
ウィキペディアを通して、ある話題に関する情報を入手する程度が、相談される言語に依存するという仮説を考察する。
ウィキペディアはウェブベースの情報ランドスケープの中心的な部分であるため、言語に関する言語的偏見を示している。
この論文は、研究、教育科学、ウィキペディア研究、計算言語学の橋渡しとなっている。
論文 参考訳(メタデータ) (2020-08-05T11:11:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。