論文の概要: Entity Linking in 100 Languages
- arxiv url: http://arxiv.org/abs/2011.02690v1
- Date: Thu, 5 Nov 2020 07:28:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 12:14:50.940073
- Title: Entity Linking in 100 Languages
- Title(参考訳): 100言語でのエンティティリンク
- Authors: Jan A. Botha, Zifei Shan, Daniel Gillick
- Abstract要約: 言語固有の言及を言語に依存しない知識ベースに分解する多言語エンティティリンクの新しい定式化を提案する。
この新たな設定でデュアルエンコーダをトレーニングし、機能表現の改善、負のマイニング、補助的なエンティティペアリングタスクによる事前作業に基づいて構築する。
このモデルは、より限定的な言語間リンクタスクにより、最先端の結果より優れています。
- 参考スコア(独自算出の注目度): 3.2099113524828513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new formulation for multilingual entity linking, where
language-specific mentions resolve to a language-agnostic Knowledge Base. We
train a dual encoder in this new setting, building on prior work with improved
feature representation, negative mining, and an auxiliary entity-pairing task,
to obtain a single entity retrieval model that covers 100+ languages and 20
million entities. The model outperforms state-of-the-art results from a far
more limited cross-lingual linking task. Rare entities and low-resource
languages pose challenges at this large-scale, so we advocate for an increased
focus on zero- and few-shot evaluation. To this end, we provide Mewsli-9, a
large new multilingual dataset (http://goo.gle/mewsli-dataset) matched to our
setting, and show how frequency-based analysis provided key insights for our
model and training enhancements.
- Abstract(参考訳): 言語固有の言及を言語に依存しない知識ベースに分解する多言語エンティティリンクの新しい定式化を提案する。
本手法では, 特徴表現の改善, 負のマイニング, 補助的なエンティティペアリングタスクによる事前作業に基づいて, マルチエンコーダを訓練し, 100以上の言語と2000万のエンティティをカバーする単一のエンティティ検索モデルを得る。
このモデルは、はるかに制限された言語間リンクタスクの結果よりも優れています。
希少なエンティティと低リソース言語は、この大規模な課題を提起する。
この目的のために、当社の設定にマッチする大規模な多言語データセット(http://goo.gle/mewsli-dataset)であるmewsli-9を提供し、モデルとトレーニング強化に周波数ベースの分析がどのように重要な洞察を提供したかを示します。
関連論文リスト
- An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - OCHADAI at SemEval-2022 Task 2: Adversarial Training for Multilingual
Idiomaticity Detection [4.111899441919165]
文が慣用的表現を含むか否かを判定する多言語逆行訓練モデルを提案する。
我々のモデルは、異なる多言語変換言語モデルからの事前学習された文脈表現に依存している。
論文 参考訳(メタデータ) (2022-06-07T05:52:43Z) - mLUKE: The Power of Entity Representations in Multilingual Pretrained
Language Models [15.873069955407406]
我々は、エンティティ表現を持つ24言語で多言語モデルを訓練する。
本稿では,言語間移動タスクにおいて,単語ベース事前学習モデルより一貫して優れることを示す。
また,mLAMAデータセットを用いた多言語クローゼプロンプトタスクによるモデルの評価を行った。
論文 参考訳(メタデータ) (2021-10-15T15:28:38Z) - Cross-Lingual Fine-Grained Entity Typing [26.973783464706447]
本稿では,100以上の言語を処理可能な,言語間を包含したエンティティタイピングモデルを提案する。
このモデルが学習中に見つからない言語やエンティティに一般化する能力について分析する。
論文 参考訳(メタデータ) (2021-10-15T03:22:30Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - The Tatoeba Translation Challenge -- Realistic Data Sets for Low
Resource and Multilingual MT [0.0]
本稿では,何千もの言語ペアに対するトレーニングとテストデータを提供する機械翻訳のための新しいベンチマークの開発について述べる。
主な目標は、世界言語をより広範囲にカバーしたオープン翻訳ツールとモデルの開発をトリガーすることである。
論文 参考訳(メタデータ) (2020-10-13T13:12:21Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z) - XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training,
Understanding and Generation [100.09099800591822]
XGLUEは、大規模な言語間の事前トレーニングモデルのトレーニングに使用できる、新しいベンチマークデータセットである。
XGLUEは、自然言語理解と生成シナリオの両方をカバーする、11の多様化されたタスクを提供する。
論文 参考訳(メタデータ) (2020-04-03T07:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。