Fugu-MT 論文翻訳(概要): Tracking Knowledge Propagation Across Wikipedia Languages

論文の概要: Tracking Knowledge Propagation Across Wikipedia Languages

arxiv url: http://arxiv.org/abs/2103.16613v1
Date: Tue, 30 Mar 2021 18:36:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-06 03:33:28.006095
Title: Tracking Knowledge Propagation Across Wikipedia Languages
Title（参考訳）: wikipedia 言語間の知識伝達の追跡
Authors: Roldolfo Valentim, Giovanni Comarela, Souneil Park and Diego Saez-Trumper
Abstract要約: 本稿では,ウィキペディアにおける言語間知識伝達のデータセットについて述べる。データセットは309の言語版と3300万の記事をカバーしている。言語版のサイズは伝播速度と関連していることがわかった。
参考スコア（独自算出の注目度）: 1.8447697408534176
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we present a dataset of inter-language knowledge propagation in Wikipedia. Covering the entire 309 language editions and 33M articles, the dataset aims to track the full propagation history of Wikipedia concepts, and allow follow up research on building predictive models of them. For this purpose, we align all the Wikipedia articles in a language-agnostic manner according to the concept they cover, which results in 13M propagation instances. To the best of our knowledge, this dataset is the first to explore the full inter-language propagation at a large scale. Together with the dataset, a holistic overview of the propagation and key insights about the underlying structural factors are provided to aid future research. For example, we find that although long cascades are unusual, the propagation tends to continue further once it reaches more than four language editions. We also find that the size of language editions is associated with the speed of propagation. We believe the dataset not only contributes to the prior literature on Wikipedia growth but also enables new use cases such as edit recommendation for addressing knowledge gaps, detection of disinformation, and cultural relationship analysis.
Abstract（参考訳）: 本稿では,wikipediaにおける言語間知識伝達のデータセットを提案する。このデータセットは、309の言語版と3300万の記事全体をカバーし、Wikipediaのコンセプトの完全な伝播履歴を追跡し、それらの予測モデルの構築に関する研究の追跡を可能にする。この目的のために、ウィキペディアの全ての記事は、それらがカバーする概念に従って言語に依存しない方法で整列する。我々の知る限りでは、このデータセットは、大規模に言語間の完全な伝播を探求する最初のものである。データセットとともに、伝播の全体的概要と基礎となる構造的要因に関する重要な洞察が、将来の研究を支援するために提供される。例えば、長いカスケードは珍しいが、4つ以上の言語版に到達した後も伝播は継続する傾向にある。また,言語版のサイズは伝播速度と関連していることがわかった。このデータセットはウィキペディアの成長に関する文献に貢献するだけでなく、知識ギャップに対処するための編集勧告、偽情報の検出、文化関係分析などの新しいユースケースも可能にしていると考えている。

関連論文リスト

Factual Inconsistencies in Multilingual Wikipedia Tables [5.395647076142643]
本研究はウィキペディアの構造化コンテンツにおける言語間不整合について検討する。ウィキペディアの多言語記事から表を収集・調整・分析する手法を開発した。これらの洞察は、事実検証、多言語知識の相互作用、信頼性の高いAIシステムの設計に影響を及ぼす。
論文参考訳（メタデータ） (2025-07-24T13:46:14Z)
WikiReddit: Tracing Information and Attention Flows Between Online Platforms [0.0]
このデータセットは、Reddit 2020-2023の投稿やコメントで共有されているウィキペディアの言及やリンクをすべてキャプチャする。 Redditとのリサーチ契約を通じて、私たちのデータセットは、RedditとWikipedia APIを統合したクエリとIDメカニズムを提供しながら、ユーザのプライバシを保証する。これらのプラットフォーム上で共有された情報と議論された情報の関係を分析することで、我々のデータセットは、ソーシャルメディアの談話と協調的な知識消費と生産との相互作用を調べる基盤を提供する。
論文参考訳（メタデータ） (2025-02-07T14:03:46Z)
Locating Information Gaps and Narrative Inconsistencies Across Languages: A Case Study of LGBT People Portrayals on Wikipedia [49.80565462746646]
我々は,情報ギャップと矛盾を事実レベルで特定するための,効率的かつ信頼性の高い手法であるInfoGap法を紹介した。我々は、LGBTの人々の描写を分析してInfoGapを評価し、英語、ロシア語、フランス語のウィキペディアの2.7Kの伝記ページを解析した。
論文参考訳（メタデータ） (2024-10-05T20:40:49Z)
An Open Multilingual System for Scoring Readability of Wikipedia [3.992677070507323]
ウィキペディア記事の読みやすさを評価するための多言語モデルを開発した。ウィキペディアから簡略化されたウィキペディアやオンラインの子供まで、14言語にまたがる新しい多言語データセットを作成します。我々のモデルはゼロショットシナリオでよく機能し、14言語で80%以上のランキング精度が得られることを示す。
論文参考訳（メタデータ） (2024-06-03T23:07:18Z)
Curious Rhythms: Temporal Regularities of Wikipedia Consumption [15.686850035802667]
日中交替のグローバルなパターンを除去した後も,個々の物品の消費習慣は日中変化が強く維持されていることを示す。我々はウィキペディアの記事のアクセスリズムの話題的・文脈的相関を調査し、記事の話題、読者国、アクセスデバイス(モバイル対デスクトップ)が日々の注意パターンの重要な予測因子であることを示す。
論文参考訳（メタデータ） (2023-05-16T14:48:08Z)
Mapping Process for the Task: Wikidata Statements to Text as Wikipedia Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文参考訳（メタデータ） (2022-10-23T08:34:33Z)
WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文参考訳（メタデータ） (2022-09-27T01:28:02Z)
Considerations for Multilingual Wikipedia Research [1.5736899098702972]
ウィキペディアの非英語版は、データセットやモデルにさらに多くの言語版が組み込まれている。本論文は,ウィキペディアの異なる言語版間でどのような違いが生じるのか,研究者が理解するための背景を提供することを目的とする。
論文参考訳（メタデータ） (2022-04-05T20:34:15Z)
Surfer100: Generating Surveys From Web Resources on Wikipedia-style [49.23675182917996]
先進言語モデリングの最近の進歩は、ウィキペディアのリード段落生成のための2段階の抽出的抽象的アプローチと組み合わせることができることを示す。提案手法は,より長いウィキペディアスタイルの要約をセクションで生成するために拡張され,100件の人文調査による詳細な研究を通じて,このような手法が本アプリケーションでどのように苦しむかを検討する。
論文参考訳（メタデータ） (2021-12-13T02:18:01Z)
Assessing the quality of sources in Wikidata across languages: a hybrid approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文参考訳（メタデータ） (2021-09-20T10:06:46Z)
Multiple Texts as a Limiting Factor in Online Learning: Quantifying (Dis-)similarities of Knowledge Networks across Languages [60.00219873112454]
ウィキペディアを通して、ある話題に関する情報を入手する程度が、相談される言語に依存するという仮説を考察する。ウィキペディアはウェブベースの情報ランドスケープの中心的な部分であるため、言語に関する言語的偏見を示している。この論文は、研究、教育科学、ウィキペディア研究、計算言語学の橋渡しとなっている。
論文参考訳（メタデータ） (2020-08-05T11:11:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。