論文の概要: ParaNames: A Massively Multilingual Entity Name Corpus
- arxiv url: http://arxiv.org/abs/2202.14035v1
- Date: Mon, 28 Feb 2022 18:58:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 14:26:03.260296
- Title: ParaNames: A Massively Multilingual Entity Name Corpus
- Title(参考訳): ParaNames: 非常に多言語なエンティティ名コーパス
- Authors: Jonne S\"alev\"a and Constantine Lignos
- Abstract要約: ParaNamesは、約1400万のエンティティの名前からなる多言語並列名リソースである。
Wikidataをソースとして、私たちはこのタイプの最も大きなリソースを作成します。
- 参考スコア(独自算出の注目度): 2.741266294612776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This preprint describes work in progress on ParaNames, a multilingual
parallel name resource consisting of names for approximately 14 million
entities. The included names span over 400 languages, and almost all entities
are mapped to standardized entity types (PER/LOC/ORG). Using Wikidata as a
source, we create the largest resource of this type to-date. We describe our
approach to filtering and standardizing the data to provide the best quality
possible. ParaNames is useful for multilingual language processing, both in
defining tasks for name translation/transliteration and as supplementary data
for tasks such as named entity recognition and linking. Our resource is
released on GitHub (https://github.com/bltlab/paranames) under a Creative
Commons license (CC BY 4.0).
- Abstract(参考訳): このプレプリントでは、約1400万のエンティティの名前からなる多言語並列ネームリソースであるParaNamesに関する作業が進行中である。
含まれる名前は400以上の言語にまたがっており、ほとんどのエンティティは標準化されたエンティティタイプ(PER/LOC/ORG)にマッピングされる。
Wikidataをソースとして、私たちはこのタイプの最大のリソースを作成します。
可能な限り最高の品質を提供するために、データをフィルタリングし、標準化するアプローチについて説明します。
ParaNamesは、名前の翻訳/翻訳のタスクの定義と、名前付きエンティティ認識やリンクのようなタスクの補足データの両方において、多言語言語処理に有用である。
私たちのリソースはCreative Commonsライセンス(CC BY 4.0)の下でGitHub(https://github.com/bltlab/paranames)でリリースされています。
関連論文リスト
- ParaNames 1.0: Creating an Entity Name Corpus for 400+ Languages using Wikidata [8.38929536671882]
ParaNamesは400以上の言語にまたがる1億4000万の名前からなる、非常に多言語で並列な名前リソースである。
名前は1680万のエンティティに対して提供され、各エンティティは複雑な型階層から標準型(PER/LOC/ORG)にマッピングされる。
ParaNamesは、名前の翻訳/翻訳のタスクの定義と、名前付きエンティティ認識やリンクのようなタスクの補足データの両方において、多言語言語処理に有用である。
論文 参考訳(メタデータ) (2024-05-15T16:44:54Z) - Multicultural Name Recognition For Previously Unseen Names [65.268245109828]
本論文は、人名の認識を改善することを目的としており、それは、誰かが生まれたり、名前を変えたりする際にも、成長できる多様なカテゴリーである。
私は103か国の名前を見て、モデルが異なる文化の名前でどれだけうまく機能するかを比較します。
文字入力と単語入力を組み合わせたモデルの方が単語のみのモデルより優れており,従来のNERモデルと比較して精度が向上する可能性がある。
論文 参考訳(メタデータ) (2024-01-23T17:58:38Z) - NameGuess: Column Name Expansion for Tabular Data [28.557115822407294]
我々は列名を自然言語生成問題として拡張するための新しいタスクであるNameGuessを紹介した。
384K短縮カラムペアのトレーニングデータセットを作成します。
表の内容や列のヘッダー名を条件にすることで、自動回帰言語モデルを強化する。
論文 参考訳(メタデータ) (2023-10-19T23:11:37Z) - DaMuEL: A Large Multilingual Dataset for Entity Linking [2.8273701718153563]
DaMuELは、エンティティに関する言語に依存しない情報を含む知識ベースと、知識ベースにリンクされたエンティティの言及を持つウィキペディアテキストの2つのコンポーネントから構成される。
データセットには、知識ベースに279万個の名前付きエンティティと、Wikipediaのテキストから12.3Gトークンが含まれている。
論文 参考訳(メタデータ) (2023-06-15T17:15:52Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - Semantic Parsing for Conversational Question Answering over Knowledge
Graphs [63.939700311269156]
本研究では,ユーザの質問にSparqlパースとアノテートし,システム回答が実行結果に対応するデータセットを開発する。
本稿では,2つの意味解析手法を提案し,その課題を強調した。
私たちのデータセットとモデルはhttps://github.com/Edinburgh/SPICE.orgで公開されています。
論文 参考訳(メタデータ) (2023-01-28T14:45:11Z) - Building Multilingual Corpora for a Complex Named Entity Recognition and
Classification Hierarchy using Wikipedia and DBpedia [0.0]
多言語および階層型並列コーパスであるUNERデータセットについて述べる。
我々は,このタイプのデータセットを,DBpedia情報を備えたウィキペディアで利用可能なあらゆる言語で作成するために必要な開発手順について詳述する。
論文 参考訳(メタデータ) (2022-12-14T11:38:48Z) - Improving Candidate Retrieval with Entity Profile Generation for
Wikidata Entity Linking [76.00737707718795]
本稿では,エンティティ・プロファイリングに基づく新しい候補探索パラダイムを提案する。
我々は、このプロファイルを使用してインデックス付き検索エンジンに問い合わせ、候補エンティティを検索する。
本手法は,ウィキペディアのアンカーテキスト辞書を用いた従来の手法を補完するものである。
論文 参考訳(メタデータ) (2022-02-27T17:38:53Z) - Mining Wikidata for Name Resources for African Languages [0.6091702876917281]
28のアフリカの言語で 約9千万の名前をリストしています
私たちは、データ、それを生成するために使用されるプロセス、およびその制限を説明し、公開するためにソフトウェアとデータを提供します。
論文 参考訳(メタデータ) (2021-04-01T15:34:53Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z) - Soft Gazetteers for Low-Resource Named Entity Recognition [78.00856159473393]
本稿では、英語知識ベースからユビキタスに利用可能な情報をニューラル名付きエンティティ認識モデルに組み込む「ソフトガゼッタ」を提案する。
4つの低リソース言語に対する実験により,F1得点の4点の平均的改善が示された。
論文 参考訳(メタデータ) (2020-05-04T21:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。