論文の概要: Extending the Subwording Model of Multilingual Pretrained Models for New
Languages
- arxiv url: http://arxiv.org/abs/2211.15965v1
- Date: Tue, 29 Nov 2022 06:55:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 15:53:39.519882
- Title: Extending the Subwording Model of Multilingual Pretrained Models for New
Languages
- Title(参考訳): 新しい言語に対する多言語事前学習モデルのサブワードモデルの拡張
- Authors: Kenji Imamura and Eiichiro Sumita
- Abstract要約: 本稿では,SentencePieceトークンに新たなサブワードを追加し,多言語事前学習モデルを新しい言語に適用する。
実験では、すでに訓練済みの言語のセグメンテーションを変更することなく、Inuktitut文をサブワードに分割した。
- 参考スコア(独自算出の注目度): 31.702393348980735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual pretrained models are effective for machine translation and
cross-lingual processing because they contain multiple languages in one model.
However, they are pretrained after their tokenizers are fixed; therefore it is
difficult to change the vocabulary after pretraining. When we extend the
pretrained models to new languages, we must modify the tokenizers
simultaneously. In this paper, we add new subwords to the SentencePiece
tokenizer to apply a multilingual pretrained model to new languages (Inuktitut
in this paper). In our experiments, we segmented Inuktitut sentences into
subwords without changing the segmentation of already pretrained languages, and
applied the mBART-50 pretrained model to English-Inuktitut translation.
- Abstract(参考訳): 多言語事前学習モデルは、1つのモデルに複数の言語を含むため、機械翻訳や言語間処理に有効である。
しかし、トークン化器が固定された後に事前学習されるため、事前学習後の語彙変更は困難である。
事前訓練されたモデルを新しい言語に拡張する場合、トークン化器を同時に修正する必要があります。
本稿では,SentencePieceトークンに新たなサブワードを追加し,多言語事前学習モデルを新しい言語に適用する(Inuktitut in this paper)。
実験では、すでに訓練済みの言語のセグメンテーションを変更することなく、Inuktitut文をサブワードに分割し、mBART-50事前学習モデルを英語-イヌクティトゥット翻訳に適用した。
関連論文リスト
- PreAlign: Boosting Cross-Lingual Transfer by Early Establishment of Multilingual Alignment [68.20851615263953]
大規模な言語モデルは、英語中心の事前訓練にもかかわらず、合理的な多言語能力を示す。
これらのモデルにおける自発的な多言語アライメントは弱く、不満足な言語間移動と知識共有をもたらす。
言語モデル事前学習に先立って多言語アライメントを確立するフレームワークであるPreAlignを提案する。
論文 参考訳(メタデータ) (2024-07-23T06:59:53Z) - Language-Family Adapters for Low-Resource Multilingual Neural Machine
Translation [129.99918589405675]
自己超越で訓練された大規模多言語モデルは、幅広い自然言語処理タスクにおいて最先端の結果を達成する。
マルチリンガルな微調整は低リソース言語のパフォーマンスを向上させるが、モデル全体を変更する必要があるため、極めて高価である。
言語間移動を容易にするため,mBART-50上で言語ファミリーアダプタを訓練する。
論文 参考訳(メタデータ) (2022-09-30T05:02:42Z) - WECHSEL: Effective initialization of subword embeddings for
cross-lingual transfer of monolingual language models [3.6878069324996616]
WECHSELと呼ばれる手法を導入し、新しい言語に英語モデルを転送する。
We use WECHSEL to transfer GPT-2 and RoBERTa models to four other languages。
論文 参考訳(メタデータ) (2021-12-13T12:26:02Z) - Continual Learning in Multilingual NMT via Language-Specific Embeddings [92.91823064720232]
共有語彙を小さな言語固有の語彙に置き換え、新しい言語の並列データに新しい埋め込みを微調整する。
元のモデルのパラメータは変更されていないため、初期言語の性能は劣化しない。
論文 参考訳(メタデータ) (2021-10-20T10:38:57Z) - MSP: Multi-Stage Prompting for Making Pre-trained Language Models Better
Translators [10.557167523009392]
本稿では,事前学習した言語モデルを翻訳タスクに適応させるための,シンプルで軽量な手法であるMulti-Stage Promptingを提案する。
事前学習された言語モデルをより優れた翻訳者にするために,事前学習された言語モデルを介して翻訳過程を3つの段階に分けた。
各段階において、事前訓練された言語モデルを翻訳タスクに適応させるために、異なる連続的なプロンプトを独立して適用する。
論文 参考訳(メタデータ) (2021-10-13T10:06:21Z) - How Good is Your Tokenizer? On the Monolingual Performance of
Multilingual Language Models [96.32118305166412]
本研究では,5つの単一言語下流タスクのセットに基づいて,事前学習可能な単言語モデルを持つ9種類の言語について検討した。
多言語モデルの語彙で適切に表現された言語は、単言語モデルよりも性能が著しく低下する。
論文 参考訳(メタデータ) (2020-12-31T14:11:00Z) - Multilingual Translation with Extensible Multilingual Pretraining and
Finetuning [77.33262578776291]
これまでの研究は、bitextで微調整することで機械翻訳システムを作成できることを実証してきた。
多言語翻訳モデルは多言語微調整により作成可能であることを示す。
事前訓練されたモデルは、性能を損なうことなく、追加の言語を組み込むように拡張できることを実証する。
論文 参考訳(メタデータ) (2020-08-02T05:36:55Z) - Making Monolingual Sentence Embeddings Multilingual using Knowledge
Distillation [73.65237422910738]
既存の文埋め込みモデルを新しい言語に拡張する,簡単かつ効率的な手法を提案する。
これにより、以前のモノリンガルモデルから多言語バージョンを作成することができる。
論文 参考訳(メタデータ) (2020-04-21T08:20:25Z) - Testing pre-trained Transformer models for Lithuanian news clustering [0.0]
英語以外の言語は、英語の事前訓練されたモデルでそのような新しい機会を活用できなかった。
我々は、リトアニア語ニュースクラスタリングのタスクの符号化として、事前訓練された多言語BERT、XLM-R、および古い学習テキスト表現法を比較した。
この結果から, 単語ベクトルを超えるように微調整できるが, 特別な訓練を施した doc2vec 埋め込みよりもはるかに低いスコアが得られた。
論文 参考訳(メタデータ) (2020-04-03T14:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。