論文の概要: Efficiently Upgrading Multilingual Machine Translation Models to Support
More Languages
- arxiv url: http://arxiv.org/abs/2302.03528v1
- Date: Tue, 7 Feb 2023 15:20:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-08 15:55:56.196599
- Title: Efficiently Upgrading Multilingual Machine Translation Models to Support
More Languages
- Title(参考訳): 言語学習を支援する多言語機械翻訳モデルの改善
- Authors: Simeng Sun, Maha Elbayad, Anna Sun, James Cross
- Abstract要約: マルチリンガル機械翻訳(MMT)モデルは、サイズとサポート言語の数が増え続けている。
データがより多くの言語で利用可能になるにつれて、計算を節約するために既存のモデルを再利用し、アップグレードするのは自然なことです。
しかし、新しい言語を追加するには、埋め込みの再利用を複雑にする語彙を更新する必要がある。
我々は,新しい言語を効果的に学習し,破滅的な忘れを和らげる3つの手法を導入する。
- 参考スコア(独自算出の注目度): 18.633630899562704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With multilingual machine translation (MMT) models continuing to grow in size
and number of supported languages, it is natural to reuse and upgrade existing
models to save computation as data becomes available in more languages.
However, adding new languages requires updating the vocabulary, which
complicates the reuse of embeddings. The question of how to reuse existing
models while also making architectural changes to provide capacity for both old
and new languages has also not been closely studied. In this work, we introduce
three techniques that help speed up effective learning of the new languages and
alleviate catastrophic forgetting despite vocabulary and architecture
mismatches. Our results show that by (1) carefully initializing the network,
(2) applying learning rate scaling, and (3) performing data up-sampling, it is
possible to exceed the performance of a same-sized baseline model with 30%
computation and recover the performance of a larger model trained from scratch
with over 50% reduction in computation. Furthermore, our analysis reveals that
the introduced techniques help learn the new directions more effectively and
alleviate catastrophic forgetting at the same time. We hope our work will guide
research into more efficient approaches to growing languages for these MMT
models and ultimately maximize the reuse of existing models.
- Abstract(参考訳): 多言語機械翻訳(mmt)モデルは、サポート対象言語のサイズと数を増加させ続けているため、より多くの言語でデータが利用可能になると、既存のモデルを再利用しアップグレードして計算を節約することは自然である。
しかし、新しい言語を追加するには、埋め込みの再利用を複雑にする語彙を更新する必要がある。
既存のモデルを再利用し、また古い言語と新しい言語の両方に能力を提供するアーキテクチャの変更を行う方法についても、詳しく研究されていない。
本稿では,新しい言語の効果的な学習をスピードアップし,語彙やアーキテクチャのミスマッチにもかかわらず壊滅的な忘れを緩和する3つの手法を紹介する。
その結果,(1)ネットワークを慎重に初期化し,(2)学習率のスケーリングを適用し,(3)データのアップサンプリングを行うことで,30%の計算で同一サイズのベースラインモデルの性能を上回り,50%以上の計算でスクラッチからトレーニングした大モデルの性能を回復することができることがわかった。
さらに, 導入した手法は, 新たな方向性をより効果的に学習し, 破滅的な忘れを緩和するのに役立つことを明らかにした。
我々は、これらのMTモデルの言語成長に対するより効率的なアプローチの研究をガイドし、最終的に既存のモデルの再利用を最大化することを願っている。
関連論文リスト
- Layer Swapping for Zero-Shot Cross-Lingual Transfer in Large Language Models [12.424072830053445]
本研究では,非英語言語における目標課題に対するLLM(Large Language Models)の微調整の難しさに対処するモデルマージ手法を提案する。
我々は、英語の数学の命令データと対象言語の汎用的な命令データに「専門家」を微調整する。
我々は、数学の専門家の上位と下位のトランスフォーマー層を直接言語専門家の層に置き換え、それによって対象言語の数学性能が向上する。
論文 参考訳(メタデータ) (2024-10-02T08:53:07Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Relay Decoding: Concatenating Large Language Models for Machine Translation [21.367605327742027]
我々はRD(Relay Decoding)と呼ばれる革新的なアプローチを提案し、ソースとターゲット言語を個別にサポートする2つの異なる大規模モデルを結合する。
これら2つのモデル間の接続を容易にするための単純なマッピング層を導入し、訓練に限られた並列データを活用することにより、機械翻訳タスクにおいて優れた結果が得られた。
論文 参考訳(メタデータ) (2024-05-05T13:42:25Z) - Extending Multilingual Machine Translation through Imitation Learning [60.15671816513614]
Imit-MNMTは、タスクを専門家の行動を模倣する模倣学習プロセスとして扱う。
提案手法は,新言語と原言語の翻訳性能を大幅に向上させることを示す。
我々はまた、我々のアプローチがコピーとオフターゲットの問題を解決することができることを示した。
論文 参考訳(メタデータ) (2023-11-14T21:04:03Z) - Efficient Language Model Training through Cross-Lingual and Progressive
Transfer Learning [0.7612676127275795]
ほとんどのトランスフォーマー言語モデルは英語のテキストで事前訓練されている。
モデルのサイズが大きくなるにつれて、英語と他の言語のパフォーマンスギャップはさらに大きくなる。
我々はCLP-Transferと呼ばれる言語横断的・進行的トランスファー学習手法を導入する。
論文 参考訳(メタデータ) (2023-01-23T18:56:12Z) - mGPT: Few-Shot Learners Go Multilingual [1.4354798873010843]
本稿では,60言語で訓練された13億のパラメータと13億のパラメータを持つ2つの自己回帰型GPT様モデルを提案する。
我々はGPT-2ソースとスパースアテンション機構を用いてGPT-3アーキテクチャを再現する。
その結果得られたモデルは、Facebookが最近リリースしたXGLMモデルと同等のパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-04-15T13:02:33Z) - Internet-augmented language models through few-shot prompting for
open-domain question answering [6.573232954655063]
私たちは、大規模な言語モデルによって提供されるユニークないくつかのショット機能を活用して、いくつかの課題を克服しています。
Google Searchを使って、ウェブから返された情報に対して言語モデルを条件付けるために、数発のプロンプトを使用します。
ウェブ上で条件付けされた言語モデルは、オープンドメイン質問応答において、類似またはそれ以上のモデルサイズを持つクローズドブックモデルの性能を上回ることが判明した。
論文 参考訳(メタデータ) (2022-03-10T02:24:14Z) - Lightweight Cross-Lingual Sentence Representation Learning [57.9365829513914]
メモリ効率のよい言語間文表現を生成するために,2層のみの軽量なデュアルトランスフォーマーアーキテクチャを導入する。
本稿では,既存のシングルワードマスキング言語モデルと,新たに提案されたクロスランガルトークンレベルの再構築タスクを組み合わせた,新しい言語間言語モデルを提案する。
論文 参考訳(メタデータ) (2021-05-28T14:10:48Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。