論文の概要: Orphan Articles: The Dark Matter of Wikipedia
- arxiv url: http://arxiv.org/abs/2306.03940v2
- Date: Sat, 05 Oct 2024 14:17:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:38:19.216980
- Title: Orphan Articles: The Dark Matter of Wikipedia
- Title(参考訳): 孤児向け記事:Wikipediaのダークマター
- Authors: Akhil Arora, Robert West, Martin Gerlach,
- Abstract要約: われわれは,他のウィキペディア記事からのリンクを含まない記事である孤児記事について,最初の体系的な研究を行っている。
すべての記事の約15%(8.8M)の驚くほど多くのコンテンツが、ウィキペディアをナビゲートする読者には事実上見えない。
また, 孤児に新たなリンク(脱孤児化)を追加することで, 統計的に有意な可視性向上につながるという疑似実験を通じて因果的証拠を提供する。
- 参考スコア(独自算出の注目度): 13.290424502717734
- License:
- Abstract: With 60M articles in more than 300 language versions, Wikipedia is the largest platform for open and freely accessible knowledge. While the available content has been growing continuously at a rate of around 200K new articles each month, very little attention has been paid to the accessibility of the content. One crucial aspect of accessibility is the integration of hyperlinks into the network so the articles are visible to readers navigating Wikipedia. In order to understand this phenomenon, we conduct the first systematic study of orphan articles, which are articles without any incoming links from other Wikipedia articles, across 319 different language versions of Wikipedia. We find that a surprisingly large extent of content, roughly 15\% (8.8M) of all articles, is de facto invisible to readers navigating Wikipedia, and thus, rightfully term orphan articles as the dark matter of Wikipedia. We also provide causal evidence through a quasi-experiment that adding new incoming links to orphans (de-orphanization) leads to a statistically significant increase of their visibility in terms of the number of pageviews. We further highlight the challenges faced by editors for de-orphanizing articles, demonstrate the need to support them in addressing this issue, and provide potential solutions for developing automated tools based on cross-lingual approaches. Overall, our work not only unravels a key limitation in the link structure of Wikipedia and quantitatively assesses its impact, but also provides a new perspective on the challenges of maintenance associated with content creation at scale in Wikipedia.
- Abstract(参考訳): 300以上の言語バージョンに6000万記事があるウィキペディアは、オープンで自由にアクセスできる知識のための最大のプラットフォームだ。
利用可能なコンテンツは毎月約2万の新しい記事のペースで継続的に成長しているが、コンテンツのアクセシビリティにはほとんど注意が払われていない。
アクセシビリティの1つの重要な側面は、ウィキペディアをナビゲートする読者に記事が見えるように、ハイパーリンクをネットワークに統合することである。
この現象を理解するために、Wikipediaの319の異なる言語バージョンにまたがる、他のウィキペディアの記事から何のリンクも入らない記事である孤児記事について、最初の体系的な研究を行う。
すべての記事の約15\% (8.8M) である驚くほど多くのコンテンツが、ウィキペディアをナビゲートする読者には事実上見えず、従って、孤児記事はウィキペディアのダークマターとして正しく用語されている。
また, 孤児に新たなリンク(脱孤児化)を追加することで, ページビュー数において, 視認性が統計的に顕著に増加するという疑似実験を通じて, 因果的証拠を提供する。
記事の非幻滅化において編集者が直面する課題をさらに強調し、この問題に対処する上でそれらをサポートする必要性を示し、言語横断アプローチに基づいた自動化ツールを開発するための潜在的なソリューションを提供する。
全体として、われわれの研究はウィキペディアのリンク構造に重要な制限を課し、その影響を定量的に評価するだけでなく、ウィキペディアの大規模コンテンツ作成に伴う保守の課題に対する新たな視点を提供する。
関連論文リスト
- An Open Multilingual System for Scoring Readability of Wikipedia [3.992677070507323]
ウィキペディア記事の読みやすさを評価するための多言語モデルを開発した。
ウィキペディアから簡略化されたウィキペディアやオンラインの子供まで、14言語にまたがる新しい多言語データセットを作成します。
我々のモデルはゼロショットシナリオでよく機能し、14言語で80%以上のランキング精度が得られることを示す。
論文 参考訳(メタデータ) (2024-06-03T23:07:18Z) - Kuaipedia: a Large-scale Multi-modal Short-video Encyclopedia [59.47639408597319]
Kuaipediaは、アイテム、アスペクト、ショートビデオからなる大規模なマルチモーダル百科事典である。
これは中国で有名なショートビデオプラットフォームKuaishouの何十億ものビデオから抽出されたものだ。
論文 参考訳(メタデータ) (2022-10-28T12:54:30Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - Improving Wikipedia Verifiability with AI [116.69749668874493]
私たちはSideと呼ばれるニューラルネットワークベースのシステムを開発し、彼らの主張を支持できないWikipediaの引用を識別する。
本誌の最初の引用レコメンデーションは、既存のWikipediaの引用よりも60%多い選好を集めている。
以上の結果から,Wikipediaの妥当性を高めるために,AIベースのシステムを人間と共同で活用できることが示唆された。
論文 参考訳(メタデータ) (2022-07-08T15:23:29Z) - Surfer100: Generating Surveys From Web Resources on Wikipedia-style [49.23675182917996]
先進言語モデリングの最近の進歩は、ウィキペディアのリード段落生成のための2段階の抽出的抽象的アプローチと組み合わせることができることを示す。
提案手法は,より長いウィキペディアスタイルの要約をセクションで生成するために拡張され,100件の人文調査による詳細な研究を通じて,このような手法が本アプリケーションでどのように苦しむかを検討する。
論文 参考訳(メタデータ) (2021-12-13T02:18:01Z) - A Large Scale Study of Reader Interactions with Images on Wikipedia [2.370481325034443]
この研究は、Wikipediaで画像とのインタラクションがどのように起きているかに関する、初めての大規模な分析である。
画像との総合的なエンゲージメントを定量化し、29人に1人が少なくとも1つの画像のクリック結果を得た。
画像のクリックは、あまり知られていない人々の視覚芸術、輸送、伝記に関する短い記事や記事でより頻繁に起こることを観察する。
論文 参考訳(メタデータ) (2021-12-03T12:02:59Z) - Wiki-Reliability: A Large Scale Dataset for Content Reliability on
Wikipedia [4.148821165759295]
我々は、幅広いコンテンツ信頼性の問題に注釈を付けた英語ウィキペディア記事の最初のデータセットを構築した。
このデータセットを構築するには、Wikipediaの「テンプレート」を利用します。
ウィキペディアで最も人気のある10の信頼性関連テンプレートを選択し、ウィキペディアの記事改訂のほぼ1Mのサンプルをポジティブまたはネガティブにラベル付ける効果的な方法を提案します。
論文 参考訳(メタデータ) (2021-05-10T05:07:03Z) - Language-agnostic Topic Classification for Wikipedia [1.950869817974852]
本稿では,論文をトピックの分類に分類するための記事のリンクに基づく言語に依存しないアプローチを提案する。
言語に依存したアプローチのパフォーマンスにマッチするが、よりシンプルで、カバー範囲がずっと大きいことを示す。
論文 参考訳(メタデータ) (2021-02-26T22:17:50Z) - Multiple Texts as a Limiting Factor in Online Learning: Quantifying
(Dis-)similarities of Knowledge Networks across Languages [60.00219873112454]
ウィキペディアを通して、ある話題に関する情報を入手する程度が、相談される言語に依存するという仮説を考察する。
ウィキペディアはウェブベースの情報ランドスケープの中心的な部分であるため、言語に関する言語的偏見を示している。
この論文は、研究、教育科学、ウィキペディア研究、計算言語学の橋渡しとなっている。
論文 参考訳(メタデータ) (2020-08-05T11:11:55Z) - How Inclusive Are Wikipedia's Hyperlinks in Articles Covering Polarizing
Topics? [8.035521056416242]
偏光トピックの相補的な側面を記述した記事間の相互接続トポロジの影響に着目した。
トピックの異なる側面へのユーザの露出を定量化するために,多様な情報への露出の新たな尺度を導入する。
ネットワークトポロジがユーザのトピックに関する多様な情報への露出を著しく制限するケースを特定し,ユーザが知識バブルに留まることを奨励する。
論文 参考訳(メタデータ) (2020-07-16T09:19:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。