論文の概要: As good as new. How to successfully recycle English GPT-2 to make models
for other languages
- arxiv url: http://arxiv.org/abs/2012.05628v1
- Date: Thu, 10 Dec 2020 12:27:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-15 16:35:14.071473
- Title: As good as new. How to successfully recycle English GPT-2 to make models
for other languages
- Title(参考訳): 新しいものと同じくらい。
英語のgpt-2を再利用して他の言語のモデルを作る方法
- Authors: Wietse de Vries, Malvina Nissim
- Abstract要約: 日本語のGPT-2をイタリア語とオランダ語に適応させるためには,Transformer層をチューニングすることなく語彙埋め込みをトレーニングする。
我々は, GPT-2小径の語彙埋め込みを GPT-2 媒体埋め込み空間に変換することで, 複雑さを増大させる方法を示す。
英語のgpt-2モデルはイタリア語とオランダ語で現実的な文を生成することができるが、平均してこれらの文は人間によって人工的に識別できる。
- 参考スコア(独自算出の注目度): 3.6042575355093907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large generative language models have been very successful for English, but
other languages lag behind due to data and computational limitations. We
propose a method that may overcome these problems by adapting existing
pre-trained language models to new languages. Specifically, we describe the
adaptation of English GPT-2 to Italian and Dutch by retraining lexical
embeddings without tuning the Transformer layers. As a result, we obtain
lexical embeddings for Italian and Dutch that are aligned with the original
English lexical embeddings and induce a bilingual lexicon from this alignment.
Additionally, we show how to scale up complexity by transforming relearned
lexical embeddings of GPT-2 small to the GPT-2 medium embedding space. This
method minimises the amount of training and prevents losing information during
adaptation that was learned by GPT-2. English GPT-2 models with relearned
lexical embeddings can generate realistic sentences in Italian and Dutch, but
on average these sentences are still identifiable as artificial by humans.
Based on perplexity scores and human judgements, we find that generated
sentences become more realistic with some additional full model finetuning,
especially for Dutch. For Italian, we see that they are evaluated on par with
sentences generated by a GPT-2 model fully trained from scratch. Our work can
be conceived as a blueprint for training GPT-2s for other languages, and we
provide a 'recipe' to do so.
- Abstract(参考訳): 大規模な生成言語モデルは英語では非常に成功しているが、他の言語はデータと計算の制限のために遅れている。
本稿では,既存の事前学習言語モデルを新しい言語に適応させることで,これらの問題を克服できる手法を提案する。
具体的には、Transformer層をチューニングせずに語彙埋め込みをトレーニングすることで、英語のGPT-2をイタリア語とオランダ語に適応させる方法について述べる。
結果として、原英語の語彙埋め込みと整合したイタリア語とオランダ語の語彙埋め込みを取得し、このアライメントからバイリンガル辞書を誘導する。
さらに, GPT-2小径の語彙埋め込みを GPT-2 媒体埋め込み空間に変換することで, 複雑さを増大させる方法を示す。
この方法はトレーニングの量を最小化し、GPT-2で学習した適応中に情報を失うのを防ぐ。
英語のgpt-2モデルはイタリア語とオランダ語で現実的な文を生成することができるが、平均してこれらの文は人間によって人工的に識別できる。
パープレキシティスコアと人間の判断に基づいて、生成された文はよりリアルになり、追加のフルモデルの微調整(特にオランダ語)が行われる。
イタリア語では、それらがGPT-2モデルでゼロから完全に訓練された文と同等に評価されている。
我々の研究は、他の言語のためのGPT-2sをトレーニングするための青写真として考えられます。
関連論文リスト
- Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - Data-to-text Generation for Severely Under-Resourced Languages with
GPT-3.5: A Bit of Help Needed from Google Translate [5.632410663467911]
言語学習システムは、トレーニングデータに過小評価されている言語に関わるタスクにどのように対処するかを検討する。
これには、アイルランド語、マルタ語、ウェールズ語、ブルトン語のデータ・テキスト生成が含まれる。
ごくわずかのプロンプトは、リソース不足の言語への直接生成に効果があるが、英語でピボットすると違いは消えてしまう。
我々は、最先端のLLMを用いて、アウト・オブ・ザ・ボックスで、アン・リソース言語での優れた性能を達成できると結論付けた。
論文 参考訳(メタデータ) (2023-08-19T09:19:34Z) - mGPT: Few-Shot Learners Go Multilingual [1.4354798873010843]
本稿では,60言語で訓練された13億のパラメータと13億のパラメータを持つ2つの自己回帰型GPT様モデルを提案する。
我々はGPT-2ソースとスパースアテンション機構を用いてGPT-3アーキテクチャを再現する。
その結果得られたモデルは、Facebookが最近リリースしたXGLMモデルと同等のパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-04-15T13:02:33Z) - A Unified Strategy for Multilingual Grammatical Error Correction with
Pre-trained Cross-Lingual Language Model [100.67378875773495]
本稿では,多言語文法的誤り訂正のための汎用的かつ言語に依存しない戦略を提案する。
我々の手法は言語固有の操作を使わずに多様な並列GECデータを生成する。
NLPCC 2018 Task 2のデータセット(中国語)で最先端の結果を達成し、Falko-Merlin(ドイツ語)とRULEC-GEC(ロシア語)の競合性能を得る。
論文 参考訳(メタデータ) (2022-01-26T02:10:32Z) - Continual Learning in Multilingual NMT via Language-Specific Embeddings [92.91823064720232]
共有語彙を小さな言語固有の語彙に置き換え、新しい言語の並列データに新しい埋め込みを微調整する。
元のモデルのパラメータは変更されていないため、初期言語の性能は劣化しない。
論文 参考訳(メタデータ) (2021-10-20T10:38:57Z) - Multilingual Translation via Grafting Pre-trained Language Models [12.787188625198459]
本稿では,機械翻訳のための事前学習言語モデルを個別に移植するGraformerを提案する。
事前学習のための単言語データと移植訓練のための並列データを用いて,両タイプのデータの利用を最大限に活用する。
論文 参考訳(メタデータ) (2021-09-11T10:57:45Z) - Methods for Detoxification of Texts for the Russian Language [55.337471467610094]
我々は、攻撃的言語と戦うために、ロシア語のテキストを自動で解毒する研究を初めて紹介する。
我々は、局所的な修正を行う教師なしアプローチと、事前訓練された言語GPT-2モデルに基づく教師なしアプローチの2種類のモデルをテストする。
以上の結果から, 改良の余地はあるものの, 脱毒に有効であることが明らかとなった。
論文 参考訳(メタデータ) (2021-05-19T10:37:44Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - Reusing a Pretrained Language Model on Languages with Limited Corpora
for Unsupervised NMT [129.99918589405675]
本稿では,オープンソース言語上でのみ事前訓練されたLMを再利用する効果的な手法を提案する。
モノリンガルLMは両言語で微調整され、UNMTモデルの初期化に使用される。
我々のアプローチであるRE-LMは、英語・マケドニア語(En-Mk)と英語・アルバニア語(En-Sq)の競合言語間事前学習モデル(XLM)より優れています。
論文 参考訳(メタデータ) (2020-09-16T11:37:10Z) - Improving Language Generation with Sentence Coherence Objective [4.997730662279843]
既存のモデルは、与えられたプロンプトから徐々に分岐するテキストの段落を出力する傾向がある。
このプロジェクトの目的は、言語生成モデルにおける文間の一貫性と一貫性を改善することである。
論文 参考訳(メタデータ) (2020-09-07T06:10:03Z) - Assessing Discourse Relations in Language Generation from GPT-2 [37.30382375828105]
GPT-2は、左から右への言語モデリングの目的から、生成タスクに適している。
有機生成シナリオと微調整シナリオの両方において, GPT-2の出力における明示的談話関係の有効性について検討した。
論文 参考訳(メタデータ) (2020-04-26T23:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。