論文の概要: WikiHist.html: English Wikipedia's Full Revision History in HTML Format
- arxiv url: http://arxiv.org/abs/2001.10256v3
- Date: Tue, 21 Apr 2020 17:21:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-06-05 09:14:49.552199
- Title: WikiHist.html: English Wikipedia's Full Revision History in HTML Format
- Title(参考訳): WikiHist.html - HTMLフォーマットにおけるウィキペディアの完全な改訂履歴
- Authors: Blagoj Mitrevski, Tiziano Piccardi, Robert West
- Abstract要約: 我々は,マークアップの局所的な例を用いて大量のwikitextを解析する並列化アーキテクチャを開発した。
我々は、ウィキペディアのハイパーリンクの実証分析において、生のウィキテキストよりもWikiHist.htmlの利点を強調した。
- 参考スコア(独自算出の注目度): 12.86558129722198
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Wikipedia is written in the wikitext markup language. When serving content,
the MediaWiki software that powers Wikipedia parses wikitext to HTML, thereby
inserting additional content by expanding macros (templates and mod-ules).
Hence, researchers who intend to analyze Wikipediaas seen by its readers should
work with HTML, rather than wikitext. Since Wikipedia's revision history is
publicly available exclusively in wikitext format, researchers have had to
produce HTML themselves, typically by using Wikipedia's REST API for ad-hoc
wikitext-to-HTML parsing. This approach, however, (1) does not scale to very
large amounts ofdata and (2) does not correctly expand macros in historical
article revisions. We solve these problems by developing a parallelized
architecture for parsing massive amounts of wikitext using local instances of
MediaWiki, enhanced with the capacity of correct historical macro expansion. By
deploying our system, we produce and release WikiHist.html, English Wikipedia's
full revision history in HTML format. We highlight the advantages of
WikiHist.html over raw wikitext in an empirical analysis of Wikipedia's
hyperlinks, showing that over half of the wiki links present in HTML are
missing from raw wikitext and that the missing links are important for user
navigation.
- Abstract(参考訳): Wikipediaはwikitextマークアップ言語で書かれている。
コンテンツを提供するとき、ウィキペディアを駆使したMediaWikiソフトウェアはウィキテキストをHTMLに解析し、マクロ(テンプレートとモジュール)を拡張することで追加のコンテンツを挿入する。
したがって、読者がウィキペディアを分析しようとする研究者は、wikitextではなくHTMLを使う必要がある。
wikipediaのリビジョン履歴はwikitextフォーマットでのみ公開されているので、研究者はwikipediaのrest apiを使ってアドホックなwikitext-to-htmlパースを使ってhtmlを作成する必要があった。
しかし、このアプローチは(1)大量のデータにスケールせず、(2)歴史的記事の改訂においてマクロを正しく拡張しない。
本研究では,メディアウィキのローカルインスタンスを用いて大量のウィキテキストを解析する並列化アーキテクチャを開発し,歴史的マクロ展開の精度を高めた。
このシステムをデプロイすることで、ウィキペディアの完全な改訂履歴であるWikiHist.htmlをHTML形式で作成・リリースする。
我々は、Wikipediaのハイパーリンクの実証分析において、生のwikitextよりもWikiHist.htmlの利点を強調し、HTMLに存在するウィキリンクの半分以上が生のwikitextから欠落しており、欠落しているリンクはユーザーナビゲーションにとって重要であることを示した。
関連論文リスト
- WikiWeb2M: A Page-Level Multimodal Wikipedia Dataset [48.00110675968677]
ウィキペディアのWebページ2M (WikiWeb2M) スイートを紹介する。
WikiWeb2Mは、ページ記述生成、セクション要約、コンテキストイメージキャプションといったタスクに使用できる。
論文 参考訳(メタデータ) (2023-05-09T13:20:59Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - Improving Wikipedia Verifiability with AI [116.69749668874493]
私たちはSideと呼ばれるニューラルネットワークベースのシステムを開発し、彼らの主張を支持できないWikipediaの引用を識別する。
本誌の最初の引用レコメンデーションは、既存のWikipediaの引用よりも60%多い選好を集めている。
以上の結果から,Wikipediaの妥当性を高めるために,AIベースのシステムを人間と共同で活用できることが示唆された。
論文 参考訳(メタデータ) (2022-07-08T15:23:29Z) - Wikidated 1.0: An Evolving Knowledge Graph Dataset of Wikidata's
Revision History [5.727994421498849]
Wikidataの完全なリビジョン履歴のデータセットであるWikidated 1.0を提示する。
私たちの知識を最大限に活用するために、それは進化する知識グラフの最初の大きなデータセットを構成する。
論文 参考訳(メタデータ) (2021-12-09T15:54:03Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Wiki-Reliability: A Large Scale Dataset for Content Reliability on
Wikipedia [4.148821165759295]
我々は、幅広いコンテンツ信頼性の問題に注釈を付けた英語ウィキペディア記事の最初のデータセットを構築した。
このデータセットを構築するには、Wikipediaの「テンプレート」を利用します。
ウィキペディアで最も人気のある10の信頼性関連テンプレートを選択し、ウィキペディアの記事改訂のほぼ1Mのサンプルをポジティブまたはネガティブにラベル付ける効果的な方法を提案します。
論文 参考訳(メタデータ) (2021-05-10T05:07:03Z) - Generating Wikipedia Article Sections from Diverse Data Sources [57.23574577984244]
WikiTableTでいくつかのトレーニングとデコード戦略をベンチマークする。
我々の定性的な分析は、最良のアプローチは、流動的で高品質なテキストを生成することができるが、コヒーレンスに苦しむことがあることを示している。
論文 参考訳(メタデータ) (2020-12-29T19:35:34Z) - Analyzing Wikidata Transclusion on English Wikipedia [1.5736899098702972]
本研究はウィキデータ・トランスクルージョンの分類とウィキデータ・トランスクルージョンの英訳ウィキペディアにおける分析について述べる。
ウィキデータ・トランスクルージョンはウィキペディアの記事の内容に影響を及ぼすが、前回の統計では61%だったよりもずっと低い率(5%)で起こる。
論文 参考訳(メタデータ) (2020-11-02T14:16:42Z) - Entity Extraction from Wikipedia List Pages [2.3605348648054463]
私たちは、DBpediaをバックボーンとして、カテゴリとリストページから大規模な分類を構築します。
遠隔監視により、リストページ内の新しいエンティティの識別のためのトレーニングデータを抽出する。
我々はDBpediaを7.5万の新しい型ステートメントと380万の高精度な新しい事実で拡張する。
論文 参考訳(メタデータ) (2020-03-11T07:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。