論文の概要: Crosslingual Topic Modeling with WikiPDA
- arxiv url: http://arxiv.org/abs/2009.11207v2
- Date: Sun, 14 Feb 2021 13:28:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 16:29:29.823101
- Title: Crosslingual Topic Modeling with WikiPDA
- Title(参考訳): WikiPDAを用いた言語横断トピックモデリング
- Authors: Tiziano Piccardi, Robert West
- Abstract要約: ウィキペディアベースのポリグロット・ディリクレ・アロケーション(WikiPDA)について紹介する。
あらゆる言語で書かれたウィキペディアの記事を、共通の言語に依存しないトピックの集合上の分布として表現することを学ぶ。
28のウィキペディア版における話題バイアスの研究と言語横断的分類の2つのアプリケーションでその実用性を示す。
- 参考スコア(独自算出の注目度): 15.198979978589476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Wikipedia-based Polyglot Dirichlet Allocation (WikiPDA), a
crosslingual topic model that learns to represent Wikipedia articles written in
any language as distributions over a common set of language-independent topics.
It leverages the fact that Wikipedia articles link to each other and are mapped
to concepts in the Wikidata knowledge base, such that, when represented as bags
of links, articles are inherently language-independent. WikiPDA works in two
steps, by first densifying bags of links using matrix completion and then
training a standard monolingual topic model. A human evaluation shows that
WikiPDA produces more coherent topics than monolingual text-based LDA, thus
offering crosslinguality at no cost. We demonstrate WikiPDA's utility in two
applications: a study of topical biases in 28 Wikipedia editions, and
crosslingual supervised classification. Finally, we highlight WikiPDA's
capacity for zero-shot language transfer, where a model is reused for new
languages without any fine-tuning. Researchers can benefit from WikiPDA as a
practical tool for studying Wikipedia's content across its 299 language
editions in interpretable ways, via an easy-to-use library publicly available
at https://github.com/epfl-dlab/WikiPDA.
- Abstract(参考訳): ウィキペディアをベースとしたポリグロット・ディリクレ・アロケーション(WikiPDA)は,言語に依存しない共通のトピックセット上の分布として,あらゆる言語で記述されたウィキペディア記事を表現することを学ぶ言語横断的トピックモデルである。
wikipediaの記事が相互リンクされ、wikidataの知識ベースの概念にマッピングされるという事実を利用しており、リンクの袋として表現すると、記事は本質的に言語に依存しない。
WikiPDAは、まず行列補完を使用してリンクの袋を密度化し、次に標準の単言語トピックモデルをトレーニングすることで、2つのステップで動作する。
人間による評価では、ウィキpdaは単言語テキストベースのldaよりもコヒーレントなトピックを生成できるため、低コストでクロスリンガル性を提供する。
ウィキpdaの有用性を2つの応用で示している: ウィキペディア28版における話題バイアスの研究と, 言語横断分類である。
最後に、WikiPDAのゼロショット言語転送能力を強調し、モデルが微調整なしで新しい言語に再利用される。
WikiPDAは、ウィキペディアの299の言語版を解釈可能な方法で研究するための実用的なツールとして、https://github.com/epfl-dlab/WikiPDAで公開されている使いやすいライブラリを通じて利用できる。
関連論文リスト
- An Open Multilingual System for Scoring Readability of Wikipedia [3.992677070507323]
ウィキペディア記事の読みやすさを評価するための多言語モデルを開発した。
ウィキペディアから簡略化されたウィキペディアやオンラインの子供まで、14言語にまたがる新しい多言語データセットを作成します。
我々のモデルはゼロショットシナリオでよく機能し、14言語で80%以上のランキング精度が得られることを示す。
論文 参考訳(メタデータ) (2024-06-03T23:07:18Z) - XWikiGen: Cross-lingual Summarization for Encyclopedic Text Generation
in Low Resource Languages [11.581072296148031]
ウィキペディアのテキスト生成に関する既存の研究は、英語の参照記事が要約されて英語のウィキペディアページを生成する場合にのみ、英語に焦点を当てている。
本稿では,ウィキペディア形式のテキストを生成するために,多言語で書かれた複数の参照記事からテキストを多文書で要約するタスクであるXWikiGenを提案する。
論文 参考訳(メタデータ) (2023-03-22T04:52:43Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - Instilling Type Knowledge in Language Models via Multi-Task QA [13.244420493711981]
タイプ中心の質問に対して,テキストからテキストへの事前学習を施した言語モデルに,きめ細かな型知識を注入する手法を提案する。
ウィキデータナレッジグラフにリンクされた100万のウィキペディア記事のエンティティとエントリを41Kタイプで作成する。
WikiWikiでトレーニングされたモデルは、ゼロショットダイアログ状態追跡ベンチマークで最先端のパフォーマンスを実現し、ウィキペディアの記事のエンティティタイプを正確に推測し、人間の裁判官が有用なと考えられる新しいタイプを発見できる。
論文 参考訳(メタデータ) (2022-04-28T22:06:32Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Language-agnostic Topic Classification for Wikipedia [1.950869817974852]
本稿では,論文をトピックの分類に分類するための記事のリンクに基づく言語に依存しないアプローチを提案する。
言語に依存したアプローチのパフォーマンスにマッチするが、よりシンプルで、カバー範囲がずっと大きいことを示す。
論文 参考訳(メタデータ) (2021-02-26T22:17:50Z) - Multiple Texts as a Limiting Factor in Online Learning: Quantifying
(Dis-)similarities of Knowledge Networks across Languages [60.00219873112454]
ウィキペディアを通して、ある話題に関する情報を入手する程度が、相談される言語に依存するという仮説を考察する。
ウィキペディアはウェブベースの情報ランドスケープの中心的な部分であるため、言語に関する言語的偏見を示している。
この論文は、研究、教育科学、ウィキペディア研究、計算言語学の橋渡しとなっている。
論文 参考訳(メタデータ) (2020-08-05T11:11:55Z) - Design Challenges in Low-resource Cross-lingual Entity Linking [56.18957576362098]
言語間エンティティリンク (XEL) は、外国語テキスト中のエンティティの言及をウィキペディアのような英語の知識ベースに根拠付ける問題である。
本稿は、英語のウィキペディアの候補タイトルを、特定の外国語の言及に対応付けて識別する重要なステップに焦点を当てる。
本稿では,検索エンジンのクエリログを利用した簡易で効果的なゼロショットXELシステムQuELを提案する。
論文 参考訳(メタデータ) (2020-05-02T04:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。