論文の概要: FOCUS: Effective Embedding Initialization for Specializing Pretrained
Multilingual Models on a Single Language
- arxiv url: http://arxiv.org/abs/2305.14481v1
- Date: Tue, 23 May 2023 19:21:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 23:57:49.976940
- Title: FOCUS: Effective Embedding Initialization for Specializing Pretrained
Multilingual Models on a Single Language
- Title(参考訳): FOCUS:単一言語における事前学習型多言語モデルのための効果的な埋め込み初期化
- Authors: Konstantin Dobler and Gerard de Melo
- Abstract要約: FOCUSは、新たに追加されたトークンを、事前訓練された新しい語彙の重複におけるトークンの組み合わせとして表現している。
FOCUSの実装はGitHubで公開されています。
- 参考スコア(独自算出の注目度): 37.86739837901986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Using model weights pretrained on a high-resource language as a warm start
can reduce the need for data and compute to obtain high-quality language models
in low-resource languages. To accommodate the new language, the pretrained
vocabulary and embeddings need to be adapted. Previous work on embedding
initialization for such adapted vocabularies has mostly focused on monolingual
source models. In this paper, we investigate the multilingual source model
setting and propose FOCUS - Fast Overlapping Token Combinations Using
Sparsemax, a novel embedding initialization method that outperforms previous
work when adapting XLM-R. FOCUS represents newly added tokens as combinations
of tokens in the overlap of the pretrained and new vocabularies. The
overlapping tokens are selected based on semantic similarity in an auxiliary
token embedding space. Our implementation of FOCUS is publicly available on
GitHub.
- Abstract(参考訳): ウォームスタートとして高リソース言語で事前トレーニングされたモデル重みを使用すると、低リソース言語で高品質な言語モデルを得るためのデータと計算の必要性が減少する。
新しい言語に対応するには、事前訓練された語彙と埋め込みを適応する必要がある。
このような適応語彙に対する初期化の埋め込みに関するこれまでの研究は、主にモノリンガルソースモデルに焦点を当ててきた。
本稿では,xlm-rを適応させる際の従来の作業に勝る新しい埋め込み初期化手法であるsparsemaxを用いて,多言語ソースモデルの設定と,高速重複トークンの組み合わせを提案する。
FOCUSは、新たに追加されたトークンを、事前訓練された新しい語彙の重複におけるトークンの組み合わせとして表現している。
重複トークンは補助トークン埋め込み空間における意味的類似性に基づいて選択される。
FOCUSの実装はGitHubで公開されています。
関連論文リスト
- MoSECroT: Model Stitching with Static Word Embeddings for Crosslingual Zero-shot Transfer [50.40191599304911]
クロスリンガルゼロショット転送のための静的単語埋め込みを用いたMoSECroTモデルスティッチについて紹介する。
本稿では,ソースコードPLMの埋め込みと対象言語の静的単語埋め込みのための共通空間を構築するために,相対表現を利用した最初のフレームワークを提案する。
提案するフレームワークは,MoSECroTに対処する際,弱いベースラインと競合するが,強いベースラインに比べて競合する結果が得られないことを示す。
論文 参考訳(メタデータ) (2024-01-09T21:09:07Z) - OFA: A Framework of Initializing Unseen Subword Embeddings for Efficient Large-scale Multilingual Continued Pretraining [49.213120730582354]
言語モデルをスクラッチから事前学習する代わりに、既存の事前学習言語モデル(PLM)を語彙拡張と継続事前学習を通じて新しい言語に適応させることがより効率的な方法である。
我々は、新しいフレームワークを提案する: $textbfO$ne $textbfF$or $textbfA$ll。
論文 参考訳(メタデータ) (2023-11-15T10:40:45Z) - Tik-to-Tok: Translating Language Models One Token at a Time: An
Embedding Initialization Strategy for Efficient Language Adaptation [19.624330093598996]
低級および中級の言語を対象としたモノリンガル言語モデルのトレーニングは、限定的かつしばしば不十分な事前学習データによって難しい。
ソース言語とターゲット言語の両方を含む単語翻訳辞書を一般化することにより、ターゲットトークン化者からのトークンをソース言語トークン化者からの意味的に類似したトークンにマッピングする。
我々は、高リソースモデルから中・低リソース言語、すなわちオランダ語とフリシアン語への変換実験を行っている。
論文 参考訳(メタデータ) (2023-10-05T11:45:29Z) - Fusing Sentence Embeddings Into LSTM-based Autoregressive Language
Models [20.24851041248274]
本稿では,プレフィックス埋め込みを用いたLSTMに基づく自己回帰言語モデルを提案する。
融合は、異なるドメインからのデータセットへの転送後に保存される難易度(16.74$rightarrow$ 15.80)を確実に低下させるのに役立つ。
また,次の単語推定値と人間の読解時間とを相関させることにより,最も優れた融合モデルの評価を行った。
論文 参考訳(メタデータ) (2022-08-04T02:13:03Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - UniLMv2: Pseudo-Masked Language Models for Unified Language Model
Pre-Training [152.63467944568094]
本稿では,自動エンコーディングと部分的自己回帰型言語モデリングタスクの両方に対して,統一言語モデルを事前学習することを提案する。
実験の結果,PMLMを用いて事前学習した統一言語モデルは,多種多様な自然言語理解・生成タスクにおいて,新たな最先端の成果が得られることがわかった。
論文 参考訳(メタデータ) (2020-02-28T15:28:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。