論文の概要: Learning Language-Specific Layers for Multilingual Machine Translation
- arxiv url: http://arxiv.org/abs/2305.02665v1
- Date: Thu, 4 May 2023 09:18:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 16:20:49.313496
- Title: Learning Language-Specific Layers for Multilingual Machine Translation
- Title(参考訳): 多言語機械翻訳のための学習言語特化層
- Authors: Telmo Pessoa Pires, Robin M. Schmidt, Yi-Hsiu Liao, Stephan Peitz
- Abstract要約: 言語特化トランスフォーマー層(LSL)を紹介する。
LSLは、計算量と前方通過定数のパラメータ数を保ちながら、モデルのキャパシティを向上させることができる。
我々は、ニューラルネットワーク探索にインスパイアされたアプローチを用いて、これらの層を配置する最善の方法を研究し、分離されたデコーダアーキテクチャではLSLを使用しない 1.3 chrF (1.5 spBLEU) 点、共有デコーダでは 1.9 chrF (2.2 spBLEU) 点の改善を実現した。
- 参考スコア(独自算出の注目度): 1.997704019887898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual Machine Translation promises to improve translation quality
between non-English languages. This is advantageous for several reasons, namely
lower latency (no need to translate twice), and reduced error cascades (e.g.,
avoiding losing gender and formality information when translating through
English). On the downside, adding more languages reduces model capacity per
language, which is usually countered by increasing the overall model size,
making training harder and inference slower. In this work, we introduce
Language-Specific Transformer Layers (LSLs), which allow us to increase model
capacity, while keeping the amount of computation and the number of parameters
used in the forward pass constant. The key idea is to have some layers of the
encoder be source or target language-specific, while keeping the remaining
layers shared. We study the best way to place these layers using a neural
architecture search inspired approach, and achieve an improvement of 1.3 chrF
(1.5 spBLEU) points over not using LSLs on a separate decoder architecture, and
1.9 chrF (2.2 spBLEU) on a shared decoder one.
- Abstract(参考訳): 多言語機械翻訳は、非英語言語間の翻訳品質を改善することを約束する。
これは、レイテンシの低下(2回翻訳する必要がなくなる)、エラーカスケードの低減(英語を翻訳する際に性別や形式情報を失うことの回避など)など、いくつかの理由により有利である。
欠点として、言語を増やすことで言語単位のモデル容量が削減されるため、モデル全体のサイズを増加させることで、トレーニングが難しくなり、推論が遅くなる。
本研究では,Language-Specific Transformer Layers (LSLs)を導入し,計算量と前方通過定数のパラメータ数を維持しながら,モデルのキャパシティを向上させる。
重要なアイデアは、エンコーダのいくつかのレイヤをソースまたはターゲット言語固有のものにし、残りのレイヤを共有させることである。
これらの層をニューラルネットワークにインスパイアされたアプローチで配置する最善の方法を検討し,個別のデコーダアーキテクチャではlslを使用しない1.3chrf (1.5 spbleu) ポイント,共有デコーダでは1.9chrf (2.2 spbleu) の改善を実現した。
関連論文リスト
- CULL-MT: Compression Using Language and Layer pruning for Machine Translation [2.565964707090901]
構造層プルーニングと選択言語方向に基づく機械翻訳モデルの圧縮手法であるCULL-MTを提案する。
NLLB-3.3Bモデルは堅牢であり、25%の層を0.9spBLEUのドロップで刈り取ることができる。
しかし、LLaMA3.1-8B-インストラクタはより感度が高く、5つの層を刈った後、2.0spBLEUの低下が生じる。
論文 参考訳(メタデータ) (2024-11-10T16:05:11Z) - On the Off-Target Problem of Zero-Shot Multilingual Neural Machine
Translation [104.85258654917297]
識別対象言語信号の符号化に失敗すると、オフターゲットとなり、語彙距離が近くなることが判明した。
多言語語彙構築のための言語認識語彙共有(LAVS)を提案する。
我々は11言語で多言語機械翻訳ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2023-05-18T12:43:31Z) - Multilingual Neural Machine Translation with Deep Encoder and Multiple
Shallow Decoders [77.2101943305862]
本稿では,複数の浅層デコーダ(DEMSD)を持つディープエンコーダを提案する。
2層デコーダを用いたDEMDモデルは、翻訳品質の低下のない標準トランスモデルと比較して平均1.8倍の高速化が得られる。
論文 参考訳(メタデータ) (2022-06-05T01:15:04Z) - Examining Scaling and Transfer of Language Model Architectures for
Machine Translation [51.69212730675345]
言語モデル(LM)は単一のレイヤのスタックで処理し、エンコーダ・デコーダモデル(EncDec)は入力と出力の処理に別々のレイヤスタックを使用する。
機械翻訳において、EncDecは長年好まれてきたアプローチであるが、LMの性能についての研究はほとんどない。
論文 参考訳(メタデータ) (2022-02-01T16:20:15Z) - Breaking Down Multilingual Machine Translation [74.24795388967907]
マルチ言語学習は一般にエンコーダにとって有益であるが,ローソース言語(LRL)ではデコーダにのみ有益であることを示す。
LRLの多言語モデルと一対多モデルは、Aharoniらによって報告された最良の結果よりも優れています。
論文 参考訳(メタデータ) (2021-10-15T14:57:12Z) - Adapting Monolingual Models: Data can be Scarce when Language Similarity
is High [3.249853429482705]
ゼロショット転送学習の性能を,可能な限り少ないデータで検証する。
我々は、低リソースターゲット言語2種類のデータを用いて、BERTベースの4つのモデルの語彙層を再学習する。
高言語的類似性により、10MBのデータは、実質的なモノリンガル転送性能を達成するのに十分である。
論文 参考訳(メタデータ) (2021-05-06T17:43:40Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。