論文の概要: XLEnt: Mining a Large Cross-lingual Entity Dataset with
Lexical-Semantic-Phonetic Word Alignment
- arxiv url: http://arxiv.org/abs/2104.08597v1
- Date: Sat, 17 Apr 2021 16:58:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 14:12:38.947871
- Title: XLEnt: Mining a Large Cross-lingual Entity Dataset with
Lexical-Semantic-Phonetic Word Alignment
- Title(参考訳): XLEnt:Lexical-Semantic-Phonetic Wordalignmentによる大規模言語間エンティティデータセットのマイニング
- Authors: Ahmed El-Kishky, Adi Renduchintala, James Cross, Francisco Guzm\'an,
Philipp Koehn
- Abstract要約: 言語間の名前付き辞書は多言語NLPタスクにとって重要なリソースである。
本稿では,Webから言語間実体辞書を自動的にマイニングするLSP-Alignを提案する。
- 参考スコア(独自算出の注目度): 9.369767055597356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-lingual named-entity lexicon are an important resource to multilingual
NLP tasks such as machine translation and cross-lingual wikification. While
knowledge bases contain a large number of entities in high-resource languages
such as English and French, corresponding entities for lower-resource languages
are often missing. To address this, we propose Lexical-Semantic-Phonetic Align
(LSP-Align), a technique to automatically mine cross-lingual entity lexicon
from the web. We demonstrate LSP-Align outperforms baselines at extracting
cross-lingual entity pairs and mine 164 million entity pairs from 120 different
languages aligned with English. We release these cross-lingual entity pairs
along with the massively multilingual tagged named entity corpus as a resource
to the NLP community.
- Abstract(参考訳): 言語間の名前付き辞書は、機械翻訳や言語間のウィキフィケーションといった多言語NLPタスクにとって重要なリソースである。
知識ベースは英語やフランス語のような高リソース言語で多くのエンティティを含んでいるが、低リソース言語に対応するエンティティはしばしば欠落している。
そこで本研究では, web から言語横断エンティティ lexicon を自動的にマイニングする手法である lexical-semantic-phonetic align (lsp-align) を提案する。
LSP-Alignは、言語間の実体対を抽出し、120の異なる言語から1億6400万の実体対を抽出する。
nlpコミュニティへのリソースとして,多言語タグ付きエンティティコーパスとともに,これらのクロスリンガルエンティティペアをリリースする。
関連論文リスト
- Multilingual Word Embeddings for Low-Resource Languages using Anchors
and a Chain of Related Languages [54.832599498774464]
我々は,言語連鎖に基づく新しいアプローチにより,多言語単語埋め込み(MWE)を構築することを提案する。
リソースの豊富なソースから始めて、ターゲットに到達するまで各言語をチェーンに順次追加することで、MWEを一度に1つの言語で構築します。
本手法は,4つの低リソース(5Mトークン)と4つの中程度の低リソース(50M)ターゲット言語を含む4つの言語ファミリーを対象としたバイリンガルレキシコン誘導法について検討した。
論文 参考訳(メタデータ) (2023-11-21T09:59:29Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Multilingual Entity and Relation Extraction from Unified to
Language-specific Training [29.778332361215636]
エンティティと関係抽出タスクの既存のアプローチは、主に英語のコーパスに焦点を当て、他の言語を無視している。
言語干渉を軽減するために,2段階の多言語学習手法と,Multilingual Entity and Relation extract framework (mERE) と呼ばれるジョイントモデルを提案する。
本手法はモノリンガル法と多言語ベースライン法の両方に優れる。
論文 参考訳(メタデータ) (2023-01-11T12:26:53Z) - Massively Multilingual Lexical Specialization of Multilingual
Transformers [18.766379322798837]
本稿では,2つの標準言語間語彙タスクにおいて,多言語レキシカル特殊化が著しく向上することを示す。
我々は,語彙制約のない言語への多言語語彙の特殊化によって一般化できることを示唆し,特殊化に欠かせない言語に対するゲインを観察する。
論文 参考訳(メタデータ) (2022-08-01T17:47:03Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - X-SRL: A Parallel Cross-Lingual Semantic Role Labeling Dataset [18.389328059694037]
本研究では,英語,フランス語,ドイツ語,スペイン語の4言語で並列なSRLコーパスを自動構築する手法を提案する。
我々は,投影品質を測定するために使用する有能なテストセットを含め,プロジェクションが強いベースラインよりも密度が高く,精度が高いことを示す。最後に,モノリンガルSRLとマルチリンガルSRLのための新しいコーパスで異なるSOTAモデルを訓練し,多言語アノテーションが特に弱い言語の性能を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-05T13:34:20Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。