論文の概要: Web2Wiki: Characterizing Wikipedia Linking Across the Web
- arxiv url: http://arxiv.org/abs/2505.15837v1
- Date: Sat, 17 May 2025 00:52:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.79811
- Title: Web2Wiki: Characterizing Wikipedia Linking Across the Web
- Title(参考訳): Web2Wiki:ウィキペディアのリンクを特徴付ける
- Authors: Veniamin Veselovsky, Tiziano Piccardi, Ashton Anderson, Robert West, Akhil Arora,
- Abstract要約: ウェブドメインの1.68%にまたがるウィキペディアのリンクは9000万以上ある。
ウィキペディアは情報目的のためにニュースや科学のウェブサイトでしばしば引用される。
ほとんどのリンクは証拠や帰属ではなく説明的な参照として機能する。
- 参考スコア(独自算出の注目度): 19.00204665059246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Wikipedia is one of the most visited websites globally, yet its role beyond its own platform remains largely unexplored. In this paper, we present the first large-scale analysis of how Wikipedia is referenced across the Web. Using a dataset from Common Crawl, we identify over 90 million Wikipedia links spanning 1.68% of Web domains and examine their distribution, context, and function. Our analysis of English Wikipedia reveals three key findings: (1) Wikipedia is most frequently cited by news and science websites for informational purposes, while commercial websites reference it less often. (2) The majority of Wikipedia links appear within the main content rather than in boilerplate or user-generated sections, highlighting their role in structured knowledge presentation. (3) Most links (95%) serve as explanatory references rather than as evidence or attribution, reinforcing Wikipedia's function as a background knowledge provider. While this study focuses on English Wikipedia, our publicly released Web2Wiki dataset includes links from multiple language editions, supporting future research on Wikipedia's global influence on the Web.
- Abstract(参考訳): Wikipediaは世界でもっとも訪問者の多いウェブサイトの1つだが、その役割は自社のプラットフォームを超えて明らかにされていない。
本稿では,ウィキペディアがウェブ上でどのように参照されているかの大規模分析を行う。
Common Crawlのデータセットを用いて、Webドメインの1.68%にまたがる9000万以上のウィキペディアリンクを特定し、その分布、コンテキスト、機能を調べます。
1)ウィキペディアは情報目的のためにニュースや科学のウェブサイトでよく引用されるが、商業ウェブサイトではあまり参照されない。
2)ウィキペディアのリンクの大部分はボイラープレートやユーザ生成セクションではなくメインコンテンツの中に表示され,構造化知識提示におけるその役割を強調している。
(3)ほとんどのリンク(95%)は証拠や属性ではなく説明的参照として機能し、背景知識プロバイダとしてのウィキペディアの機能を強化する。
本研究は英語のウィキペディアに焦点をあてるが、我々の公開したWeb2Wikiデータセットには、複数の言語版へのリンクが含まれており、ウィキペディアのウェブに対する世界的影響に関する将来の研究を支援する。
関連論文リスト
- WikiWeb2M: A Page-Level Multimodal Wikipedia Dataset [48.00110675968677]
ウィキペディアのWebページ2M (WikiWeb2M) スイートを紹介する。
WikiWeb2Mは、ページ記述生成、セクション要約、コンテキストイメージキャプションといったタスクに使用できる。
論文 参考訳(メタデータ) (2023-05-09T13:20:59Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - Improving Wikipedia Verifiability with AI [116.69749668874493]
私たちはSideと呼ばれるニューラルネットワークベースのシステムを開発し、彼らの主張を支持できないWikipediaの引用を識別する。
本誌の最初の引用レコメンデーションは、既存のWikipediaの引用よりも60%多い選好を集めている。
以上の結果から,Wikipediaの妥当性を高めるために,AIベースのシステムを人間と共同で活用できることが示唆された。
論文 参考訳(メタデータ) (2022-07-08T15:23:29Z) - Surfer100: Generating Surveys From Web Resources on Wikipedia-style [49.23675182917996]
先進言語モデリングの最近の進歩は、ウィキペディアのリード段落生成のための2段階の抽出的抽象的アプローチと組み合わせることができることを示す。
提案手法は,より長いウィキペディアスタイルの要約をセクションで生成するために拡張され,100件の人文調査による詳細な研究を通じて,このような手法が本アプリケーションでどのように苦しむかを検討する。
論文 参考訳(メタデータ) (2021-12-13T02:18:01Z) - A Large Scale Study of Reader Interactions with Images on Wikipedia [2.370481325034443]
この研究は、Wikipediaで画像とのインタラクションがどのように起きているかに関する、初めての大規模な分析である。
画像との総合的なエンゲージメントを定量化し、29人に1人が少なくとも1つの画像のクリック結果を得た。
画像のクリックは、あまり知られていない人々の視覚芸術、輸送、伝記に関する短い記事や記事でより頻繁に起こることを観察する。
論文 参考訳(メタデータ) (2021-12-03T12:02:59Z) - A Map of Science in Wikipedia [0.22843885788439797]
ウィキペディア記事と科学雑誌記事の関係を地図化する。
ウィキペディアから引用されたほとんどの雑誌記事はSTEM分野、特に生物学と医学に属する。
ウィキペディアの伝記は、STEM分野と人文科学、特に歴史を結びつける上で重要な役割を果たしている。
論文 参考訳(メタデータ) (2021-10-26T15:44:32Z) - Multiple Texts as a Limiting Factor in Online Learning: Quantifying
(Dis-)similarities of Knowledge Networks across Languages [60.00219873112454]
ウィキペディアを通して、ある話題に関する情報を入手する程度が、相談される言語に依存するという仮説を考察する。
ウィキペディアはウェブベースの情報ランドスケープの中心的な部分であるため、言語に関する言語的偏見を示している。
この論文は、研究、教育科学、ウィキペディア研究、計算言語学の橋渡しとなっている。
論文 参考訳(メタデータ) (2020-08-05T11:11:55Z) - A Deeper Investigation of the Importance of Wikipedia Links to the
Success of Search Engines [7.433327915285967]
検索結果ページ(SERP)におけるウィキペディアリンクの発生状況に関する調査結果について報告する。
ウィキペディアのリンクは重要な検索コンテキストでは極めて一般的であり、一般的なクエリやトレンドクエリでは全SERPの67~84%に表示されるが、医療クエリではそれほど多くはない。
本研究は,(1)ウィキペディアのコンテンツと研究はウィキペディア領域以外で大きな影響を与え,(2)検索エンジンのような強力な技術はボランティアが作成した無料コンテンツに大きく依存している,という補完的な概念を裏付けるものである。
論文 参考訳(メタデータ) (2020-04-21T19:58:28Z) - Entity Extraction from Wikipedia List Pages [2.3605348648054463]
私たちは、DBpediaをバックボーンとして、カテゴリとリストページから大規模な分類を構築します。
遠隔監視により、リストページ内の新しいエンティティの識別のためのトレーニングデータを抽出する。
我々はDBpediaを7.5万の新しい型ステートメントと380万の高精度な新しい事実で拡張する。
論文 参考訳(メタデータ) (2020-03-11T07:48:46Z) - Quantifying Engagement with Citations on Wikipedia [13.703047949952852]
300ページビューの1つは、参照クリックの結果である。
クリックはより短いページや低い品質のページで頻繁に行われる。
最近のコンテンツ、オープンアクセスソース、ライフイベントに関する参考資料が特に人気である。
論文 参考訳(メタデータ) (2020-01-23T15:52:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。