論文の概要: FOCUS: Effective Embedding Initialization for Monolingual Specialization
of Multilingual Models
- arxiv url: http://arxiv.org/abs/2305.14481v2
- Date: Mon, 6 Nov 2023 17:47:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 22:43:31.321032
- Title: FOCUS: Effective Embedding Initialization for Monolingual Specialization
of Multilingual Models
- Title(参考訳): FOCUS:多言語モデルの単言語特化のための効果的な埋め込み初期化
- Authors: Konstantin Dobler and Gerard de Melo
- Abstract要約: FOCUSは、新たに追加されたトークンを、ソースとターゲット語彙の重複におけるトークンの組み合わせとして表現している。
我々は,マルチリンガルなXLM-Rをソースモデルとして用いることに焦点を当てた。
- 参考スコア(独自算出の注目度): 26.598115320351496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Using model weights pretrained on a high-resource language as a warm start
can reduce the need for data and compute to obtain high-quality language models
for other, especially low-resource, languages. However, if we want to use a new
tokenizer specialized for the target language, we cannot transfer the source
model's embedding matrix. In this paper, we propose FOCUS - Fast Overlapping
Token Combinations Using Sparsemax, a novel embedding initialization method
that initializes the embedding matrix effectively for a new tokenizer based on
information in the source model's embedding matrix. FOCUS represents newly
added tokens as combinations of tokens in the overlap of the source and target
vocabularies. The overlapping tokens are selected based on semantic similarity
in an auxiliary static token embedding space. We focus our study on using the
multilingual XLM-R as a source model and empirically show that FOCUS
outperforms random initialization and previous work in language modeling and on
a range of downstream tasks (NLI, QA, and NER).
- Abstract(参考訳): ウォームスタートとして高リソース言語に事前トレーニングされたモデル重みを使用すると、データの必要性が減少し、他の、特に低リソース言語のための高品質言語モデルを得るための計算が可能になる。
しかし、ターゲット言語に特化した新しいトークン化子を使いたければ、ソースモデルの埋め込みマトリックスを転送することはできない。
本稿では,ソースモデルの埋め込み行列の情報に基づいて,新しいトークン化器に対して,組込み行列を効果的に初期化する新しい組込み初期化手法であるsparsemaxを用いて,高速に重なり合うトークンの組み合わせを提案する。
FOCUSは、新たに追加されたトークンを、ソースとターゲット語彙の重複におけるトークンの組み合わせとして表現している。
重なり合うトークンは、補助的な静的トークン埋め込み空間における意味的類似性に基づいて選択される。
我々は,マルチリンガルなXLM-Rをソースモデルとして使用することに着目し,FOCUSが言語モデリングや下流タスク(NLI,QA,NER)において,ランダム初期化や過去の作業より優れていることを示す。
関連論文リスト
- MoSECroT: Model Stitching with Static Word Embeddings for Crosslingual Zero-shot Transfer [50.40191599304911]
クロスリンガルゼロショット転送のための静的単語埋め込みを用いたMoSECroTモデルスティッチについて紹介する。
本稿では,ソースコードPLMの埋め込みと対象言語の静的単語埋め込みのための共通空間を構築するために,相対表現を利用した最初のフレームワークを提案する。
提案するフレームワークは,MoSECroTに対処する際,弱いベースラインと競合するが,強いベースラインに比べて競合する結果が得られないことを示す。
論文 参考訳(メタデータ) (2024-01-09T21:09:07Z) - OFA: A Framework of Initializing Unseen Subword Embeddings for Efficient Large-scale Multilingual Continued Pretraining [49.213120730582354]
言語モデルをスクラッチから事前学習する代わりに、既存の事前学習言語モデル(PLM)を語彙拡張と継続事前学習を通じて新しい言語に適応させることがより効率的な方法である。
我々は、新しいフレームワークを提案する: $textbfO$ne $textbfF$or $textbfA$ll。
論文 参考訳(メタデータ) (2023-11-15T10:40:45Z) - Tik-to-Tok: Translating Language Models One Token at a Time: An
Embedding Initialization Strategy for Efficient Language Adaptation [19.624330093598996]
低級および中級の言語を対象としたモノリンガル言語モデルのトレーニングは、限定的かつしばしば不十分な事前学習データによって難しい。
ソース言語とターゲット言語の両方を含む単語翻訳辞書を一般化することにより、ターゲットトークン化者からのトークンをソース言語トークン化者からの意味的に類似したトークンにマッピングする。
我々は、高リソースモデルから中・低リソース言語、すなわちオランダ語とフリシアン語への変換実験を行っている。
論文 参考訳(メタデータ) (2023-10-05T11:45:29Z) - Fusing Sentence Embeddings Into LSTM-based Autoregressive Language
Models [20.24851041248274]
本稿では,プレフィックス埋め込みを用いたLSTMに基づく自己回帰言語モデルを提案する。
融合は、異なるドメインからのデータセットへの転送後に保存される難易度(16.74$rightarrow$ 15.80)を確実に低下させるのに役立つ。
また,次の単語推定値と人間の読解時間とを相関させることにより,最も優れた融合モデルの評価を行った。
論文 参考訳(メタデータ) (2022-08-04T02:13:03Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - UniLMv2: Pseudo-Masked Language Models for Unified Language Model
Pre-Training [152.63467944568094]
本稿では,自動エンコーディングと部分的自己回帰型言語モデリングタスクの両方に対して,統一言語モデルを事前学習することを提案する。
実験の結果,PMLMを用いて事前学習した統一言語モデルは,多種多様な自然言語理解・生成タスクにおいて,新たな最先端の成果が得られることがわかった。
論文 参考訳(メタデータ) (2020-02-28T15:28:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。