論文の概要: Utilizing citation index and synthetic quality measure to compare Wikipedia languages across various topics
- arxiv url: http://arxiv.org/abs/2505.16506v1
- Date: Thu, 22 May 2025 10:41:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.231947
- Title: Utilizing citation index and synthetic quality measure to compare Wikipedia languages across various topics
- Title(参考訳): 引用指標と合成品質尺度を用いた様々なトピック間のウィキペディア言語の比較
- Authors: Włodzimierz Lewoniewski, Krzysztof Węcel, Witold Abramowicz,
- Abstract要約: 本研究は,合成品質指標とともに引用指標を用いたウィキペディア語版55版の比較分析を行った。
それぞれのトピックと言語のバージョンで最も引用された記事のトップ10、トップ25、トップ100を選択した。
このインデックスは各言語版ウィキペディア記事間のウィキリンクに基づいて構築され、660億ページ間のリンクレコードを処理した。
次に、Wikipediaの各記事の品質スコアを使用しました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study presents a comparative analysis of 55 Wikipedia language editions employing a citation index alongside a synthetic quality measure. Specifically, we identified the most significant Wikipedia articles within distinct topical areas, selecting the top 10, top 25, and top 100 most cited articles in each topic and language version. This index was built on the basis of wikilinks between Wikipedia articles in each language version and in order to do that we processed 6.6 billion page-to-page link records. Next, we used a quality score for each Wikipedia article - a synthetic measure scaled from 0 to 100. This approach enabled quality comparison of Wikipedia articles even between language versions with different quality grading schemes. Our results highlight disparities among Wikipedia language editions, revealing strengths and gaps in content coverage and quality across topics.
- Abstract(参考訳): 本研究は,合成品質指標とともに引用指標を用いたウィキペディア語版55版の比較分析を行った。
具体的には、各トピックと言語のバージョンで最も引用された記事のトップ10、トップ25、トップ100を選択した。
このインデックスは各言語版ウィキペディア記事間のウィキリンクに基づいて構築され、660億ページ間のリンクレコードを処理した。
次に、Wikipediaの各記事の品質スコアを使用しました。
このアプローチにより、ウィキペディアの記事の品質比較は、異なる品質グレーディングスキームを持つ言語バージョンでさえ可能となった。
その結果,Wikipediaの言語版間の差異が強調され,トピック間のコンテンツカバレッジと品質の長所と短所が明らかになった。
関連論文リスト
- How Good is Your Wikipedia? Auditing Data Quality for Low-resource and Multilingual NLP [13.814955569390207]
本稿では,ウィキペディアのデータ品質を,様々な品質フィルタリング手法を応用して,非英語環境におけるデータ品質を批判的に検証する。
データ品質プルーニングは、パフォーマンスを損なうことなく、リソース効率の高いトレーニングに有効な手段であることがわかった。
論文 参考訳(メタデータ) (2024-11-08T12:35:58Z) - An Open Multilingual System for Scoring Readability of Wikipedia [3.992677070507323]
ウィキペディア記事の読みやすさを評価するための多言語モデルを開発した。
ウィキペディアから簡略化されたウィキペディアやオンラインの子供まで、14言語にまたがる新しい多言語データセットを作成します。
我々のモデルはゼロショットシナリオでよく機能し、14言語で80%以上のランキング精度が得られることを示す。
論文 参考訳(メタデータ) (2024-06-03T23:07:18Z) - Language-Agnostic Modeling of Wikipedia Articles for Content Quality Assessment across Languages [0.19698344608599344]
ウィキペディアの記事の品質をモデル化するための新しい計算フレームワークを提案する。
本フレームワークは,論文から抽出した言語に依存しない構造的特徴に基づく。
既存のウィキペディアの言語バージョンにあるすべての記事の特徴値と品質スコアでデータセットを構築しました。
論文 参考訳(メタデータ) (2024-04-15T13:07:31Z) - WikiSQE: A Large-Scale Dataset for Sentence Quality Estimation in
Wikipedia [14.325320851640084]
ウィキペディアにおける文質推定のための大規模データセットであるWikiSQEを提案する。
それぞれの文は、英語のウィキペディアの改訂履歴全体から抽出される。
WikiSQEには約3.4Mの文と153の品質ラベルがある。
論文 参考訳(メタデータ) (2023-05-10T06:45:13Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - Surfer100: Generating Surveys From Web Resources on Wikipedia-style [49.23675182917996]
先進言語モデリングの最近の進歩は、ウィキペディアのリード段落生成のための2段階の抽出的抽象的アプローチと組み合わせることができることを示す。
提案手法は,より長いウィキペディアスタイルの要約をセクションで生成するために拡張され,100件の人文調査による詳細な研究を通じて,このような手法が本アプリケーションでどのように苦しむかを検討する。
論文 参考訳(メタデータ) (2021-12-13T02:18:01Z) - Language-agnostic Topic Classification for Wikipedia [1.950869817974852]
本稿では,論文をトピックの分類に分類するための記事のリンクに基づく言語に依存しないアプローチを提案する。
言語に依存したアプローチのパフォーマンスにマッチするが、よりシンプルで、カバー範囲がずっと大きいことを示す。
論文 参考訳(メタデータ) (2021-02-26T22:17:50Z) - Generating Wikipedia Article Sections from Diverse Data Sources [57.23574577984244]
WikiTableTでいくつかのトレーニングとデコード戦略をベンチマークする。
我々の定性的な分析は、最良のアプローチは、流動的で高品質なテキストを生成することができるが、コヒーレンスに苦しむことがあることを示している。
論文 参考訳(メタデータ) (2020-12-29T19:35:34Z) - Multiple Texts as a Limiting Factor in Online Learning: Quantifying
(Dis-)similarities of Knowledge Networks across Languages [60.00219873112454]
ウィキペディアを通して、ある話題に関する情報を入手する程度が、相談される言語に依存するという仮説を考察する。
ウィキペディアはウェブベースの情報ランドスケープの中心的な部分であるため、言語に関する言語的偏見を示している。
この論文は、研究、教育科学、ウィキペディア研究、計算言語学の橋渡しとなっている。
論文 参考訳(メタデータ) (2020-08-05T11:11:55Z) - Design Challenges in Low-resource Cross-lingual Entity Linking [56.18957576362098]
言語間エンティティリンク (XEL) は、外国語テキスト中のエンティティの言及をウィキペディアのような英語の知識ベースに根拠付ける問題である。
本稿は、英語のウィキペディアの候補タイトルを、特定の外国語の言及に対応付けて識別する重要なステップに焦点を当てる。
本稿では,検索エンジンのクエリログを利用した簡易で効果的なゼロショットXELシステムQuELを提案する。
論文 参考訳(メタデータ) (2020-05-02T04:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。