論文の概要: MDAPT: Multilingual Domain Adaptive Pretraining in a Single Model
- arxiv url: http://arxiv.org/abs/2109.06605v1
- Date: Tue, 14 Sep 2021 11:50:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 23:35:20.040114
- Title: MDAPT: Multilingual Domain Adaptive Pretraining in a Single Model
- Title(参考訳): MDAPT:単一モデルにおける多言語ドメイン適応事前学習
- Authors: Rasmus K{\ae}r J{\o}rgensen and Mareike Hartmann and Xiang Dai and
Desmond Elliott
- Abstract要約: 一つの多言語ドメイン固有モデルが一般的な多言語モデルより優れていることを示す。
本稿では,言語モデルがドメイン固有かつ多言語的になるような事前学習コーパスを構成するための様々な手法を提案する。
- 参考スコア(独自算出の注目度): 17.566140528671134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Domain adaptive pretraining, i.e. the continued unsupervised pretraining of a
language model on domain-specific text, improves the modelling of text for
downstream tasks within the domain. Numerous real-world applications are based
on domain-specific text, e.g. working with financial or biomedical documents,
and these applications often need to support multiple languages. However,
large-scale domain-specific multilingual pretraining data for such scenarios
can be difficult to obtain, due to regulations, legislation, or simply a lack
of language- and domain-specific text. One solution is to train a single
multilingual model, taking advantage of the data available in as many languages
as possible. In this work, we explore the benefits of domain adaptive
pretraining with a focus on adapting to multiple languages within a specific
domain. We propose different techniques to compose pretraining corpora that
enable a language model to both become domain-specific and multilingual.
Evaluation on nine domain-specific datasets-for biomedical named entity
recognition and financial sentence classification-covering seven different
languages show that a single multilingual domain-specific model can outperform
the general multilingual model, and performs close to its monolingual
counterpart. This finding holds across two different pretraining methods,
adapter-based pretraining and full model pretraining.
- Abstract(参考訳): ドメイン適応事前学習(ドメイン固有テキスト上での言語モデルの教師なし事前訓練)は、ドメイン内の下流タスクのためのテキストのモデリングを改善する。
多くの現実世界のアプリケーションは、例えば金融文書や生物医学文書を扱うなど、ドメイン固有のテキストに基づいており、これらのアプリケーションは、しばしば複数の言語をサポートする必要がある。
しかし、そのようなシナリオに対する大規模ドメイン固有の多言語事前学習データは、規制、法律、あるいは単に言語やドメイン固有のテキストが欠如しているため、入手が困難である。
1つの解決策は、できるだけ多くの言語で利用可能なデータを活用する、単一の多言語モデルをトレーニングすることである。
本稿では、特定のドメイン内の複数の言語に適応することに焦点を当て、ドメイン適応事前トレーニングの利点を探求する。
言語モデルがドメイン特化と多言語化の両立を可能にする,事前学習コーパスを構成するための異なる手法を提案する。
生物医学的な名前付きエンティティ認識と金融文分類を対象とする9つのドメイン固有データセットの評価から,単一の多言語ドメイン固有モデルが一般的な多言語モデルを上回る性能を示し,そのモノリンガルモデルに近い性能を示す。
この発見は、アダプタベースの事前トレーニングとフルモデル事前トレーニングという、2つの異なる事前トレーニング方法にまたがる。
関連論文リスト
- KBioXLM: A Knowledge-anchored Biomedical Multilingual Pretrained
Language Model [37.69464822182714]
ほとんどの生物医学的な事前訓練された言語モデルはモノリンガルであり、言語間要求の増大に対処できない。
本稿では,多言語事前学習型XLM-Rを知識アンコール手法を用いて生物医学領域に変換するKBioXLMというモデルを提案する。
論文 参考訳(メタデータ) (2023-11-20T07:02:35Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Adapting Multilingual Speech Representation Model for a New,
Underresourced Language through Multilingual Fine-tuning and Continued
Pretraining [2.3513645401551333]
既存の多言語wav2vec 2.0モデルを新しい言語に適用する可能性を検討する。
この結果から, 継続事前学習がwav2vec 2.0モデルを新しい言語に適応させる最も効果的な方法であることが示唆された。
関連言語の種類や類似した音韻特性を持つ非関連言語で事前訓練されたモデルが利用可能である場合,その言語からの付加データを用いた多言語微調整は,音声認識性能に肯定的な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-01-18T03:57:53Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - Multilingual Domain Adaptation for NMT: Decoupling Language and Domain
Information with Adapters [66.7986513246294]
機械翻訳の文脈における言語とドメインアダプタの構成性について検討する。
部分的なリソースのシナリオでは、ドメイン固有のアダプタと言語固有のアダプタの組み合わせは、しばしば欠落した言語を破滅的に忘れてしまう。
論文 参考訳(メタデータ) (2021-10-18T18:55:23Z) - Efficient Domain Adaptation of Language Models via Adaptive Tokenization [5.058301279065432]
ドメイン固有のサブワードシーケンスは,ベースおよびドメイン固有のコーパスの条件付きトークン分布の分岐から,直接的に決定可能であることを示す。
我々の手法は、トークン化器の強化を用いた他の手法よりも、より小さなモデルで、トレーニングや推論の時間が少なくなります。
論文 参考訳(メタデータ) (2021-09-15T17:51:27Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Multilingual Translation with Extensible Multilingual Pretraining and
Finetuning [77.33262578776291]
これまでの研究は、bitextで微調整することで機械翻訳システムを作成できることを実証してきた。
多言語翻訳モデルは多言語微調整により作成可能であることを示す。
事前訓練されたモデルは、性能を損なうことなく、追加の言語を組み込むように拡張できることを実証する。
論文 参考訳(メタデータ) (2020-08-02T05:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。