論文の概要: Language-agnostic Topic Classification for Wikipedia
- arxiv url: http://arxiv.org/abs/2103.00068v1
- Date: Fri, 26 Feb 2021 22:17:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-09 20:24:20.352139
- Title: Language-agnostic Topic Classification for Wikipedia
- Title(参考訳): wikipediaにおける言語非依存トピック分類
- Authors: Isaac Johnson, Martin Gerlach and Diego S\'aez-Trumper
- Abstract要約: 本稿では,論文をトピックの分類に分類するための記事のリンクに基づく言語に依存しないアプローチを提案する。
言語に依存したアプローチのパフォーマンスにマッチするが、よりシンプルで、カバー範囲がずっと大きいことを示す。
- 参考スコア(独自算出の注目度): 1.950869817974852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A major challenge for many analyses of Wikipedia dynamics -- e.g., imbalances
in content quality, geographic differences in what content is popular, what
types of articles attract more editor discussion -- is grouping the very
diverse range of Wikipedia articles into coherent, consistent topics. This
problem has been addressed using various approaches based on Wikipedia's
category network, WikiProjects, and external taxonomies. However, these
approaches have always been limited in their coverage: typically, only a small
subset of articles can be classified, or the method cannot be applied across
(the more than 300) languages on Wikipedia. In this paper, we propose a
language-agnostic approach based on the links in an article for classifying
articles into a taxonomy of topics that can be easily applied to (almost) any
language and article on Wikipedia. We show that it matches the performance of a
language-dependent approach while being simpler and having much greater
coverage.
- Abstract(参考訳): ウィキペディアのダイナミックス(コンテンツ品質の不均衡、どのコンテンツが人気か、どの記事が編集者の議論を惹きつけるかなど)を分析する上で大きな課題は、非常に多様なウィキペディアの記事を一貫性のあるトピックにまとめることである。
この問題はwikipediaのカテゴリネットワーク、ウィキプロジェクト、外部分類に基づく様々なアプローチで解決されている。
しかし、これらのアプローチは常に範囲に限られており、典型的には、記事のごく一部しか分類できないか、ウィキペディア上の(300以上の)言語にまたがって適用できない。
本稿では,wikipediaの任意の言語や記事に対して(ほぼ)容易に適用可能なトピックの分類法として,記事へのリンクに基づく言語非依存のアプローチを提案する。
言語に依存したアプローチのパフォーマンスにマッチするが、よりシンプルで、カバー範囲がずっと大きいことを示す。
関連論文リスト
- How Good is Your Wikipedia? [13.814955569390207]
本稿では,ウィキペディアのデータ品質を,様々な品質フィルタリング手法を応用して,非英語環境におけるデータ品質を批判的に検証する。
データ品質プルーニングは、パフォーマンスを損なうことなく、リソース効率の高いトレーニングに有効な手段であることがわかった。
論文 参考訳(メタデータ) (2024-11-08T12:35:58Z) - Language-Agnostic Modeling of Wikipedia Articles for Content Quality Assessment across Languages [0.19698344608599344]
ウィキペディアの記事の品質をモデル化するための新しい計算フレームワークを提案する。
本フレームワークは,論文から抽出した言語に依存しない構造的特徴に基づく。
既存のウィキペディアの言語バージョンにあるすべての記事の特徴値と品質スコアでデータセットを構築しました。
論文 参考訳(メタデータ) (2024-04-15T13:07:31Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - Orphan Articles: The Dark Matter of Wikipedia [13.290424502717734]
われわれは,他のウィキペディア記事からのリンクを含まない記事である孤児記事について,最初の体系的な研究を行っている。
すべての記事の約15%(8.8M)の驚くほど多くのコンテンツが、ウィキペディアをナビゲートする読者には事実上見えない。
また, 孤児に新たなリンク(脱孤児化)を追加することで, 統計的に有意な可視性向上につながるという疑似実験を通じて因果的証拠を提供する。
論文 参考訳(メタデータ) (2023-06-06T18:04:33Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - Generating Wikipedia Article Sections from Diverse Data Sources [57.23574577984244]
WikiTableTでいくつかのトレーニングとデコード戦略をベンチマークする。
我々の定性的な分析は、最良のアプローチは、流動的で高品質なテキストを生成することができるが、コヒーレンスに苦しむことがあることを示している。
論文 参考訳(メタデータ) (2020-12-29T19:35:34Z) - Crosslingual Topic Modeling with WikiPDA [15.198979978589476]
ウィキペディアベースのポリグロット・ディリクレ・アロケーション(WikiPDA)について紹介する。
あらゆる言語で書かれたウィキペディアの記事を、共通の言語に依存しないトピックの集合上の分布として表現することを学ぶ。
28のウィキペディア版における話題バイアスの研究と言語横断的分類の2つのアプリケーションでその実用性を示す。
論文 参考訳(メタデータ) (2020-09-23T15:19:27Z) - Multiple Texts as a Limiting Factor in Online Learning: Quantifying
(Dis-)similarities of Knowledge Networks across Languages [60.00219873112454]
ウィキペディアを通して、ある話題に関する情報を入手する程度が、相談される言語に依存するという仮説を考察する。
ウィキペディアはウェブベースの情報ランドスケープの中心的な部分であるため、言語に関する言語的偏見を示している。
この論文は、研究、教育科学、ウィキペディア研究、計算言語学の橋渡しとなっている。
論文 参考訳(メタデータ) (2020-08-05T11:11:55Z) - Design Challenges in Low-resource Cross-lingual Entity Linking [56.18957576362098]
言語間エンティティリンク (XEL) は、外国語テキスト中のエンティティの言及をウィキペディアのような英語の知識ベースに根拠付ける問題である。
本稿は、英語のウィキペディアの候補タイトルを、特定の外国語の言及に対応付けて識別する重要なステップに焦点を当てる。
本稿では,検索エンジンのクエリログを利用した簡易で効果的なゼロショットXELシステムQuELを提案する。
論文 参考訳(メタデータ) (2020-05-02T04:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。