論文の概要: KBioXLM: A Knowledge-anchored Biomedical Multilingual Pretrained
Language Model
- arxiv url: http://arxiv.org/abs/2311.11564v1
- Date: Mon, 20 Nov 2023 07:02:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 19:40:19.162545
- Title: KBioXLM: A Knowledge-anchored Biomedical Multilingual Pretrained
Language Model
- Title(参考訳): KBioXLM:知識適応型バイオメディカル多言語事前学習言語モデル
- Authors: Lei Geng, Xu Yan, Ziqiang Cao, Juntao Li, Wenjie Li, Sujian Li, Xinjie
Zhou, Yang Yang, Jun Zhang
- Abstract要約: ほとんどの生物医学的な事前訓練された言語モデルはモノリンガルであり、言語間要求の増大に対処できない。
本稿では,多言語事前学習型XLM-Rを知識アンコール手法を用いて生物医学領域に変換するKBioXLMというモデルを提案する。
- 参考スコア(独自算出の注目度): 37.69464822182714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most biomedical pretrained language models are monolingual and cannot handle
the growing cross-lingual requirements. The scarcity of non-English domain
corpora, not to mention parallel data, poses a significant hurdle in training
multilingual biomedical models. Since knowledge forms the core of
domain-specific corpora and can be translated into various languages
accurately, we propose a model called KBioXLM, which transforms the
multilingual pretrained model XLM-R into the biomedical domain using a
knowledge-anchored approach. We achieve a biomedical multilingual corpus by
incorporating three granularity knowledge alignments (entity, fact, and passage
levels) into monolingual corpora. Then we design three corresponding training
tasks (entity masking, relation masking, and passage relation prediction) and
continue training on top of the XLM-R model to enhance its domain cross-lingual
ability. To validate the effectiveness of our model, we translate the English
benchmarks of multiple tasks into Chinese. Experimental results demonstrate
that our model significantly outperforms monolingual and multilingual
pretrained models in cross-lingual zero-shot and few-shot scenarios, achieving
improvements of up to 10+ points. Our code is publicly available at
https://github.com/ngwlh-gl/KBioXLM.
- Abstract(参考訳): ほとんどの生物医学的事前訓練された言語モデルは単言語であり、増大する言語間要件に対応できない。
非英語ドメインコーパスの不足は、並列データだけでなく、多言語バイオメディカルモデルのトレーニングにおいて大きなハードルとなっている。
知識はドメイン固有コーパスのコアを形成し,様々な言語に正確に翻訳できるため,多言語事前学習モデルであるXLM-Rを知識アンコールアプローチを用いてバイオメディカルドメインに変換するKBioXLMと呼ばれるモデルを提案する。
我々は,モノリンガルコーパスに3つの粒度知識アライメント(エンタリティ,事実,通過レベル)を組み込むことで,バイオメディカル多言語コーパスを実現する。
そこで我々は,XLM-Rモデル上での3つのトレーニングタスク(エンタリティマスキング,関係マスキング,通過関係予測)を設計し,そのドメイン間言語能力を高めるために継続トレーニングを行う。
本モデルの有効性を検証するため,複数のタスクの英語ベンチマークを中国語に翻訳する。
実験結果から, 単言語および多言語事前学習モデルにおいて, ゼロショットおよび少数ショットのシナリオにおいて, 最大10点以上の改善が得られた。
私たちのコードはhttps://github.com/ngwlh-gl/KBioXLMで公開されています。
関連論文リスト
- Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Poro 34B and the Blessing of Multilinguality [3.270981284471548]
Poro 34Bは、フィンランド語、英語、プログラミング言語の1兆トークンのために訓練された34億のパラメータモデルである。
フィンランド語における既存モデルの能力を大幅に向上するモデルを,多言語学習アプローチにより生成できることが示される。
論文 参考訳(メタデータ) (2024-04-02T11:34:12Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - Cross-Lingual Text Classification with Multilingual Distillation and
Zero-Shot-Aware Training [21.934439663979663]
多言語事前学習言語モデル(MPLM)に基づくマルチブランチ多言語言語モデル(MBLM)
教師学習フレームワークを用いた高性能単言語モデルからの知識の伝達に基づく方法
2つの言語横断型分類タスクの結果から,MPLMの教師付きデータのみを用いることで,教師付き性能とゼロショット性能が向上することが示された。
論文 参考訳(メタデータ) (2022-02-28T09:51:32Z) - XLM-K: Improving Cross-Lingual Language Model Pre-Training with
Multilingual Knowledge [31.765178013933134]
言語間事前学習は単言語とバイリンガルの平文コーパスを用いて大きな成功を収めた。
本稿では,事前学習に多言語知識を取り入れた言語間言語モデルXLM-Kを提案する。
論文 参考訳(メタデータ) (2021-09-26T11:46:20Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - ERNIE-M: Enhanced Multilingual Representation by Aligning Cross-lingual
Semantics with Monolingual Corpora [21.78571365050787]
ERNIE-Mは、複数の言語の表現をモノリンガルコーパスと整合させる新しいトレーニング手法である。
単言語コーパス上で擬似並列文ペアを生成し、異なる言語間のセマンティックアライメントの学習を可能にする。
実験結果から,ERNIE-Mは既存の言語間モデルよりも優れており,様々な言語間下流タスクに対して新たな最先端結果を提供することがわかった。
論文 参考訳(メタデータ) (2020-12-31T15:52:27Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Multilingual Translation with Extensible Multilingual Pretraining and
Finetuning [77.33262578776291]
これまでの研究は、bitextで微調整することで機械翻訳システムを作成できることを実証してきた。
多言語翻訳モデルは多言語微調整により作成可能であることを示す。
事前訓練されたモデルは、性能を損なうことなく、追加の言語を組み込むように拡張できることを実証する。
論文 参考訳(メタデータ) (2020-08-02T05:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。