論文の概要: Language-agnostic Topic Classification for Wikipedia
- arxiv url: http://arxiv.org/abs/2103.00068v1
- Date: Fri, 26 Feb 2021 22:17:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-09 20:24:20.352139
- Title: Language-agnostic Topic Classification for Wikipedia
- Title(参考訳): wikipediaにおける言語非依存トピック分類
- Authors: Isaac Johnson, Martin Gerlach and Diego S\'aez-Trumper
- Abstract要約: 本稿では,論文をトピックの分類に分類するための記事のリンクに基づく言語に依存しないアプローチを提案する。
言語に依存したアプローチのパフォーマンスにマッチするが、よりシンプルで、カバー範囲がずっと大きいことを示す。
- 参考スコア(独自算出の注目度): 1.950869817974852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A major challenge for many analyses of Wikipedia dynamics -- e.g., imbalances
in content quality, geographic differences in what content is popular, what
types of articles attract more editor discussion -- is grouping the very
diverse range of Wikipedia articles into coherent, consistent topics. This
problem has been addressed using various approaches based on Wikipedia's
category network, WikiProjects, and external taxonomies. However, these
approaches have always been limited in their coverage: typically, only a small
subset of articles can be classified, or the method cannot be applied across
(the more than 300) languages on Wikipedia. In this paper, we propose a
language-agnostic approach based on the links in an article for classifying
articles into a taxonomy of topics that can be easily applied to (almost) any
language and article on Wikipedia. We show that it matches the performance of a
language-dependent approach while being simpler and having much greater
coverage.
- Abstract(参考訳): ウィキペディアのダイナミックス(コンテンツ品質の不均衡、どのコンテンツが人気か、どの記事が編集者の議論を惹きつけるかなど)を分析する上で大きな課題は、非常に多様なウィキペディアの記事を一貫性のあるトピックにまとめることである。
この問題はwikipediaのカテゴリネットワーク、ウィキプロジェクト、外部分類に基づく様々なアプローチで解決されている。
しかし、これらのアプローチは常に範囲に限られており、典型的には、記事のごく一部しか分類できないか、ウィキペディア上の(300以上の)言語にまたがって適用できない。
本稿では,wikipediaの任意の言語や記事に対して(ほぼ)容易に適用可能なトピックの分類法として,記事へのリンクに基づく言語非依存のアプローチを提案する。
言語に依存したアプローチのパフォーマンスにマッチするが、よりシンプルで、カバー範囲がずっと大きいことを示す。
関連論文リスト
- Orphan Articles: The Dark Matter of Wikipedia [14.408229457250552]
われわれは,他のウィキペディア記事からのリンクを含まない記事である孤児記事について,最初の体系的な研究を行っている。
すべての記事の約15%(8.8M)の驚くほど多くのコンテンツが、ウィキペディアをナビゲートする読者には事実上見えない。
また, 孤児に新たなリンク(脱孤児化)を追加することで, 統計的に有意な可視性向上につながるという疑似実験を通じて因果的証拠を提供する。
論文 参考訳(メタデータ) (2023-06-06T18:04:33Z) - XWikiGen: Cross-lingual Summarization for Encyclopedic Text Generation
in Low Resource Languages [11.581072296148031]
ウィキペディアのテキスト生成に関する既存の研究は、英語の参照記事が要約されて英語のウィキペディアページを生成する場合にのみ、英語に焦点を当てている。
本稿では,ウィキペディア形式のテキストを生成するために,多言語で書かれた複数の参照記事からテキストを多文書で要約するタスクであるXWikiGenを提案する。
論文 参考訳(メタデータ) (2023-03-22T04:52:43Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - Generating Wikipedia Article Sections from Diverse Data Sources [57.23574577984244]
WikiTableTでいくつかのトレーニングとデコード戦略をベンチマークする。
我々の定性的な分析は、最良のアプローチは、流動的で高品質なテキストを生成することができるが、コヒーレンスに苦しむことがあることを示している。
論文 参考訳(メタデータ) (2020-12-29T19:35:34Z) - Crosslingual Topic Modeling with WikiPDA [15.198979978589476]
ウィキペディアベースのポリグロット・ディリクレ・アロケーション(WikiPDA)について紹介する。
あらゆる言語で書かれたウィキペディアの記事を、共通の言語に依存しないトピックの集合上の分布として表現することを学ぶ。
28のウィキペディア版における話題バイアスの研究と言語横断的分類の2つのアプリケーションでその実用性を示す。
論文 参考訳(メタデータ) (2020-09-23T15:19:27Z) - Multiple Texts as a Limiting Factor in Online Learning: Quantifying
(Dis-)similarities of Knowledge Networks across Languages [60.00219873112454]
ウィキペディアを通して、ある話題に関する情報を入手する程度が、相談される言語に依存するという仮説を考察する。
ウィキペディアはウェブベースの情報ランドスケープの中心的な部分であるため、言語に関する言語的偏見を示している。
この論文は、研究、教育科学、ウィキペディア研究、計算言語学の橋渡しとなっている。
論文 参考訳(メタデータ) (2020-08-05T11:11:55Z) - Design Challenges in Low-resource Cross-lingual Entity Linking [56.18957576362098]
言語間エンティティリンク (XEL) は、外国語テキスト中のエンティティの言及をウィキペディアのような英語の知識ベースに根拠付ける問題である。
本稿は、英語のウィキペディアの候補タイトルを、特定の外国語の言及に対応付けて識別する重要なステップに焦点を当てる。
本稿では,検索エンジンのクエリログを利用した簡易で効果的なゼロショットXELシステムQuELを提案する。
論文 参考訳(メタデータ) (2020-05-02T04:00:26Z) - What is Trending on Wikipedia? Capturing Trends and Language Biases
Across Wikipedia Editions [4.916670182199368]
ウィキペディア読者の閲覧行動の自動評価と比較を提案する。
例えば、2018年の最後の4ヶ月間は、英語、フランス語、ロシア語に重点を置いています。
提案手法には3つのステップがあり,まず,選択した期間に最も傾向の高い項目を抽出する。
第2に、半教師付きトピック抽出を行い、第3に、言語間でトピックを比較する。
論文 参考訳(メタデータ) (2020-02-17T11:04:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。