論文の概要: ParaNames 1.0: Creating an Entity Name Corpus for 400+ Languages using Wikidata
- arxiv url: http://arxiv.org/abs/2405.09496v1
- Date: Wed, 15 May 2024 16:44:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-16 12:56:32.542068
- Title: ParaNames 1.0: Creating an Entity Name Corpus for 400+ Languages using Wikidata
- Title(参考訳): ParaNames 1.0: Wikidataを使って400以上の言語用のEntity Name Corpusを作成する
- Authors: Jonne Sälevä, Constantine Lignos,
- Abstract要約: ParaNamesは400以上の言語にまたがる1億4000万の名前からなる、非常に多言語で並列な名前リソースである。
名前は1680万のエンティティに対して提供され、各エンティティは複雑な型階層から標準型(PER/LOC/ORG)にマッピングされる。
ParaNamesは、名前の翻訳/翻訳のタスクの定義と、名前付きエンティティ認識やリンクのようなタスクの補足データの両方において、多言語言語処理に有用である。
- 参考スコア(独自算出の注目度): 8.38929536671882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce ParaNames, a massively multilingual parallel name resource consisting of 140 million names spanning over 400 languages. Names are provided for 16.8 million entities, and each entity is mapped from a complex type hierarchy to a standard type (PER/LOC/ORG). Using Wikidata as a source, we create the largest resource of this type to date. We describe our approach to filtering and standardizing the data to provide the best quality possible. ParaNames is useful for multilingual language processing, both in defining tasks for name translation/transliteration and as supplementary data for tasks such as named entity recognition and linking. We demonstrate the usefulness of ParaNames on two tasks. First, we perform canonical name translation between English and 17 other languages. Second, we use it as a gazetteer for multilingual named entity recognition, obtaining performance improvements on all 10 languages evaluated.
- Abstract(参考訳): 我々は400以上の言語にまたがる1億4000万の名前からなる多言語並列名リソースであるParaNamesを紹介した。
名前は1680万のエンティティに対して提供され、各エンティティは複雑な型階層から標準型(PER/LOC/ORG)にマッピングされる。
Wikidataをソースとして、このタイプの最大のリソースを作成します。
可能な限り最高の品質を提供するために、データをフィルタリングし、標準化するアプローチについて説明します。
ParaNamesは、名前の翻訳/翻訳のタスクの定義と、名前付きエンティティ認識やリンクのようなタスクの補足データの両方において、多言語言語処理に有用である。
2つのタスクでParaNamesの有用性を示す。
まず、英語と17の言語間で標準名変換を行う。
第二に、マルチリンガルな名前付きエンティティ認識のためのガゼッタとして使用し、評価された10言語すべてで性能改善を得る。
関連論文リスト
- NameGuess: Column Name Expansion for Tabular Data [28.557115822407294]
我々は列名を自然言語生成問題として拡張するための新しいタスクであるNameGuessを紹介した。
384K短縮カラムペアのトレーニングデータセットを作成します。
表の内容や列のヘッダー名を条件にすることで、自動回帰言語モデルを強化する。
論文 参考訳(メタデータ) (2023-10-19T23:11:37Z) - Semantic Parsing for Conversational Question Answering over Knowledge
Graphs [63.939700311269156]
本研究では,ユーザの質問にSparqlパースとアノテートし,システム回答が実行結果に対応するデータセットを開発する。
本稿では,2つの意味解析手法を提案し,その課題を強調した。
私たちのデータセットとモデルはhttps://github.com/Edinburgh/SPICE.orgで公開されています。
論文 参考訳(メタデータ) (2023-01-28T14:45:11Z) - Naamapadam: A Large-Scale Named Entity Annotated Data for Indic
Languages [15.214673043019399]
このデータセットには、3つの標準エンティティカテゴリから少なくとも100万のエンティティがアノテートされた400k以上の文が含まれている。
トレーニングデータセットは、Samanantar並列コーパスから自動的に作成される。
IndicNERは、Naamapadamトレーニングセットを微調整した多言語IndicBERTモデルである。
論文 参考訳(メタデータ) (2022-12-20T11:15:24Z) - Statistical and Neural Methods for Cross-lingual Entity Label Mapping in
Knowledge Graphs [4.466084612775998]
ウィキデータから抽出した言語間エンティティラベルを10言語でアライメントするための単語と文のアライメント手法の適用について検討する。
この結果から,Wikidata の主要なラベル間のマッピングは,採用手法によって大幅に改善(F1スコアの20ドルポイントまで)されていることが示唆された。
論文 参考訳(メタデータ) (2022-06-17T11:57:08Z) - DAMO-NLP at SemEval-2022 Task 11: A Knowledge-based System for
Multilingual Named Entity Recognition [94.1865071914727]
MultiCoNERは、複数の言語に対する短文と低文設定で意味的に曖昧な名前のエンティティを検出することを目的としている。
我々のチームDAMO-NLPは知識に基づくシステムを提案し、ウィキペディアに基づく多言語知識ベースを構築する。
入力文が与えられた場合,本システムは知識ベースから関連コンテキストを効果的に検索する。
我々のシステムはMultiCoNER共有タスクで13トラック中10トラックを獲得した。
論文 参考訳(メタデータ) (2022-03-01T15:29:35Z) - ParaNames: A Massively Multilingual Entity Name Corpus [2.741266294612776]
ParaNamesは、約1400万のエンティティの名前からなる多言語並列名リソースである。
Wikidataをソースとして、私たちはこのタイプの最も大きなリソースを作成します。
論文 参考訳(メタデータ) (2022-02-28T18:58:06Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - Mining Wikidata for Name Resources for African Languages [0.6091702876917281]
28のアフリカの言語で 約9千万の名前をリストしています
私たちは、データ、それを生成するために使用されるプロセス、およびその制限を説明し、公開するためにソフトウェアとデータを提供します。
論文 参考訳(メタデータ) (2021-04-01T15:34:53Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z) - A High-Quality Multilingual Dataset for Structured Documentation
Translation [101.41835967142521]
本稿では,文書領域を対象とした高品質な多言語データセットを提案する。
エンタープライズソフトウェアプラットフォームのオンラインドキュメントからXML構造化の並列テキストセグメントを収集します。
論文 参考訳(メタデータ) (2020-06-24T02:08:44Z) - XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training,
Understanding and Generation [100.09099800591822]
XGLUEは、大規模な言語間の事前トレーニングモデルのトレーニングに使用できる、新しいベンチマークデータセットである。
XGLUEは、自然言語理解と生成シナリオの両方をカバーする、11の多様化されたタスクを提供する。
論文 参考訳(メタデータ) (2020-04-03T07:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。