論文の概要: Learning Domain-Specialised Representations for Cross-Lingual Biomedical
Entity Linking
- arxiv url: http://arxiv.org/abs/2105.14398v1
- Date: Sun, 30 May 2021 00:50:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:55:44.719819
- Title: Learning Domain-Specialised Representations for Cross-Lingual Biomedical
Entity Linking
- Title(参考訳): 言語間バイオメディカルエンティティリンクのためのドメイン特化表現の学習
- Authors: Fangyu Liu, Ivan Vuli\'c, Anna Korhonen, Nigel Collier
- Abstract要約: 言語横断型バイオメディカルエンティティリンクタスク(XL-BEL)を提案する。
まず、標準単言語英語BELタスクを超えて、標準単言語および多言語LMと同様に、標準的な知識に依存しない能力について検討する。
次に、リソースに富んだ言語からリソースに乏しい言語にドメイン固有の知識を移すことの課題に対処する。
- 参考スコア(独自算出の注目度): 66.76141128555099
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Injecting external domain-specific knowledge (e.g., UMLS) into pretrained
language models (LMs) advances their capability to handle specialised in-domain
tasks such as biomedical entity linking (BEL). However, such abundant expert
knowledge is available only for a handful of languages (e.g., English). In this
work, by proposing a novel cross-lingual biomedical entity linking task
(XL-BEL) and establishing a new XL-BEL benchmark spanning 10 typologically
diverse languages, we first investigate the ability of standard
knowledge-agnostic as well as knowledge-enhanced monolingual and multilingual
LMs beyond the standard monolingual English BEL task. The scores indicate large
gaps to English performance. We then address the challenge of transferring
domain-specific knowledge in resource-rich languages to resource-poor ones. To
this end, we propose and evaluate a series of cross-lingual transfer methods
for the XL-BEL task, and demonstrate that general-domain bitext helps propagate
the available English knowledge to languages with little to no in-domain data.
Remarkably, we show that our proposed domain-specific transfer methods yield
consistent gains across all target languages, sometimes up to 20 Precision@1
points, without any in-domain knowledge in the target language, and without any
in-domain parallel data.
- Abstract(参考訳): 外部ドメイン固有の知識(UMLSなど)を事前訓練された言語モデル(LM)に注入することで、バイオメディカルエンティティリンク(BEL)のような専門的なドメイン内タスクを扱う能力が向上する。
しかし、そのような豊富な専門知識は少数の言語(例えば英語)でのみ利用可能である。
本稿では,新しいクロスリンガル・バイオメディカル・エンティティ・リンク・タスク (xl-bel) の提案と、10種類の類型的言語にまたがる新しいxl-belベンチマークの確立を通じて,まず,標準知識非依存および知識強化単言語・多言語lmsの能力について,標準英語ベルタスクを超えて検討する。
スコアは英語のパフォーマンスに大きな差を示している。
次に、リソースに富んだ言語からリソースに乏しい言語にドメイン固有の知識を移すことの課題に対処する。
そこで本論文では,XL-BELタスクの言語間移動手法の一連の提案と評価を行い,一般分野のbitextが,ドメイン内データが少ない言語への英語知識の普及に有効であることを実証する。
注目すべきは、提案したドメイン固有トランスファー手法が、最大20のPrecision@1ポイント、ターゲット言語におけるドメイン内知識、ドメイン内並列データなしで、すべてのターゲット言語に対して一貫した利得が得られることである。
関連論文リスト
- Zero-shot Cross-lingual Transfer Learning with Multiple Source and Target Languages for Information Extraction: Language Selection and Adversarial Training [38.19963761398705]
本稿では,近年のIEコーパスにおける多言語多言語変換可能性(多言語間移動学習)に関する詳細な解析を行う。
まず、単一言語のパフォーマンスと幅広い言語に基づく距離の相関について検討する。
次に,複数の言語が学習・評価プロセスに関与している,より一般的なゼロショット多言語転送設定について検討する。
論文 参考訳(メタデータ) (2024-11-13T17:13:25Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - LexGen: Domain-aware Multilingual Lexicon Generation [40.97738267067852]
マルチドメイン設定で6つのインド語のための辞書語を生成する新しいモデルを提案する。
私たちのモデルは、情報をエンコードするドメイン固有層とドメイン生成層で構成されています。
8つの異なるドメインにまたがる6つのインドの言語を対象とした新しいベンチマークデータセットをリリースしました。
論文 参考訳(メタデータ) (2024-05-18T07:02:43Z) - Cross-Lingual Transfer Robustness to Lower-Resource Languages on Adversarial Datasets [4.653113033432781]
多言語言語モデル(MLLM)の言語間伝達能力について検討した。
本研究は,言語間移動とそのNLP応用への応用に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2024-03-29T08:47:15Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Prix-LM: Pretraining for Multilingual Knowledge Base Construction [59.02868906044296]
複数言語による知識構築と完成のための統合フレームワークである Prix-LM を提案する。
既存の多言語KBから抽出したモノリンガルトリプルとクロスリンガルリンクの2種類の知識を利用する。
複数の言語におけるリンク予測、言語間リンク、バイリンガル語彙誘導など、標準的なエンティティ関連タスクの実験は、その効果を実証している。
論文 参考訳(メタデータ) (2021-10-16T02:08:46Z) - Cross-Lingual Transfer in Zero-Shot Cross-Language Entity Linking [19.083300046605252]
言語間リンクの基盤は、複数の言語で言及され、単一の言語知識ベースに言及される。
BERTの多言語化能力は単言語および多言語設定において頑健な性能をもたらすことが判明した。
論文 参考訳(メタデータ) (2020-10-19T20:08:26Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。