論文の概要: Tracking Knowledge Propagation Across Wikipedia Languages
- arxiv url: http://arxiv.org/abs/2103.16613v1
- Date: Tue, 30 Mar 2021 18:36:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 03:33:28.006095
- Title: Tracking Knowledge Propagation Across Wikipedia Languages
- Title(参考訳): wikipedia 言語間の知識伝達の追跡
- Authors: Roldolfo Valentim, Giovanni Comarela, Souneil Park and Diego
Saez-Trumper
- Abstract要約: 本稿では,ウィキペディアにおける言語間知識伝達のデータセットについて述べる。
データセットは309の言語版と3300万の記事をカバーしている。
言語版のサイズは伝播速度と関連していることがわかった。
- 参考スコア(独自算出の注目度): 1.8447697408534176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a dataset of inter-language knowledge propagation
in Wikipedia. Covering the entire 309 language editions and 33M articles, the
dataset aims to track the full propagation history of Wikipedia concepts, and
allow follow up research on building predictive models of them. For this
purpose, we align all the Wikipedia articles in a language-agnostic manner
according to the concept they cover, which results in 13M propagation
instances. To the best of our knowledge, this dataset is the first to explore
the full inter-language propagation at a large scale. Together with the
dataset, a holistic overview of the propagation and key insights about the
underlying structural factors are provided to aid future research. For example,
we find that although long cascades are unusual, the propagation tends to
continue further once it reaches more than four language editions. We also find
that the size of language editions is associated with the speed of propagation.
We believe the dataset not only contributes to the prior literature on
Wikipedia growth but also enables new use cases such as edit recommendation for
addressing knowledge gaps, detection of disinformation, and cultural
relationship analysis.
- Abstract(参考訳): 本稿では,wikipediaにおける言語間知識伝達のデータセットを提案する。
このデータセットは、309の言語版と3300万の記事全体をカバーし、Wikipediaのコンセプトの完全な伝播履歴を追跡し、それらの予測モデルの構築に関する研究の追跡を可能にする。
この目的のために、ウィキペディアの全ての記事は、それらがカバーする概念に従って言語に依存しない方法で整列する。
我々の知る限りでは、このデータセットは、大規模に言語間の完全な伝播を探求する最初のものである。
データセットとともに、伝播の全体的概要と基礎となる構造的要因に関する重要な洞察が、将来の研究を支援するために提供される。
例えば、長いカスケードは珍しいが、4つ以上の言語版に到達した後も伝播は継続する傾向にある。
また,言語版のサイズは伝播速度と関連していることがわかった。
このデータセットはウィキペディアの成長に関する文献に貢献するだけでなく、知識ギャップに対処するための編集勧告、偽情報の検出、文化関係分析などの新しいユースケースも可能にしていると考えている。
関連論文リスト
- Curious Rhythms: Temporal Regularities of Wikipedia Consumption [13.484359389266867]
日中交替のグローバルなパターンを除去した後も,個々の物品の消費習慣は日中変化が強く維持されていることを示す。
我々はウィキペディアの記事のアクセスリズムの話題的・文脈的相関を調査し、記事の話題、読者国、アクセスデバイス(モバイル対デスクトップ)が日々の注意パターンの重要な予測因子であることを示す。
論文 参考訳(メタデータ) (2023-05-16T14:48:08Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - Considerations for Multilingual Wikipedia Research [1.5736899098702972]
ウィキペディアの非英語版は、データセットやモデルにさらに多くの言語版が組み込まれている。
本論文は,ウィキペディアの異なる言語版間でどのような違いが生じるのか,研究者が理解するための背景を提供することを目的とする。
論文 参考訳(メタデータ) (2022-04-05T20:34:15Z) - Surfer100: Generating Surveys From Web Resources on Wikipedia-style [49.23675182917996]
先進言語モデリングの最近の進歩は、ウィキペディアのリード段落生成のための2段階の抽出的抽象的アプローチと組み合わせることができることを示す。
提案手法は,より長いウィキペディアスタイルの要約をセクションで生成するために拡張され,100件の人文調査による詳細な研究を通じて,このような手法が本アプリケーションでどのように苦しむかを検討する。
論文 参考訳(メタデータ) (2021-12-13T02:18:01Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Computational linguistic assessment of textbook and online learning
media by means of threshold concepts in business education [59.003956312175795]
言語学的観点では、しきい値の概念は特別な語彙の例であり、特定の言語的特徴を示す。
ビジネス教育における63のしきい値の概念のプロファイルは、教科書、新聞、ウィキペディアで調査されている。
3種類のリソースは、しきい値の概念のプロファイルから区別できる。
論文 参考訳(メタデータ) (2020-08-05T12:56:16Z) - Multiple Texts as a Limiting Factor in Online Learning: Quantifying
(Dis-)similarities of Knowledge Networks across Languages [60.00219873112454]
ウィキペディアを通して、ある話題に関する情報を入手する程度が、相談される言語に依存するという仮説を考察する。
ウィキペディアはウェブベースの情報ランドスケープの中心的な部分であるため、言語に関する言語的偏見を示している。
この論文は、研究、教育科学、ウィキペディア研究、計算言語学の橋渡しとなっている。
論文 参考訳(メタデータ) (2020-08-05T11:11:55Z) - Entity Extraction from Wikipedia List Pages [2.3605348648054463]
私たちは、DBpediaをバックボーンとして、カテゴリとリストページから大規模な分類を構築します。
遠隔監視により、リストページ内の新しいエンティティの識別のためのトレーニングデータを抽出する。
我々はDBpediaを7.5万の新しい型ステートメントと380万の高精度な新しい事実で拡張する。
論文 参考訳(メタデータ) (2020-03-11T07:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。