論文の概要: Demystify Optimization Challenges in Multilingual Transformers
- arxiv url: http://arxiv.org/abs/2104.07639v1
- Date: Thu, 15 Apr 2021 17:51:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 17:09:05.568359
- Title: Demystify Optimization Challenges in Multilingual Transformers
- Title(参考訳): 多言語変換器におけるデミスティフィケーション最適化問題
- Authors: Xian Li, Hongyu Gong
- Abstract要約: ロスランドスケープとパラメータの可塑性の観点から最適化課題を考察する。
不均衡なトレーニングデータは、高いリソース言語と低いリソース言語の間でタスクの干渉を引き起こす。
Curvature Aware Task Scaling (CATS) を提案し、特にリソースの少ない場合の最適化と一般化の両方を改善します。
- 参考スコア(独自算出の注目度): 21.245418118851884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multilingual Transformer improves parameter efficiency and crosslingual
transfer. How to effectively train multilingual models has not been well
studied. Using multilingual machine translation as a testbed, we study
optimization challenges from loss landscape and parameter plasticity
perspectives. We found that imbalanced training data poses task interference
between high and low resource languages, characterized by nearly orthogonal
gradients for major parameters and the optimization trajectory being mostly
dominated by high resource. We show that local curvature of the loss surface
affects the degree of interference, and existing heuristics of data subsampling
implicitly reduces the sharpness, although still face a trade-off between high
and low resource languages. We propose a principled multi-objective
optimization algorithm, Curvature Aware Task Scaling (CATS), which improves
both optimization and generalization especially for low resource. Experiments
on TED, WMT and OPUS-100 benchmarks demonstrate that CATS advances the Pareto
front of accuracy while being efficient to apply to massive multilingual
settings at the scale of 100 languages.
- Abstract(参考訳): 多言語トランスフォーマーはパラメータ効率と言語間転送を改善する。
多言語モデルを効果的に訓練する方法は研究されていない。
多言語機械翻訳をテストベッドとして使用し、損失景観とパラメータ可塑性の観点から最適化課題を考察する。
不均衡なトレーニングデータは、主要なパラメータのほぼ直交勾配と最適化の軌跡によって特徴づけられ、高リソース言語と低リソース言語間のタスク干渉を引き起こすことが判明した。
損失面の局所曲率は干渉の程度に影響を及ぼし、既存のデータサブサンプリングのヒューリスティックスは、高いリソース言語と低いリソース言語とのトレードオフに直面しながら、シャープさを暗黙的に減少させる。
本稿では,特に低リソースに対する最適化と一般化の両立を両立させる多目的最適化アルゴリズム,curvature aware task scaling (cats)を提案する。
TED、WMT、OPUS-100ベンチマークの実験では、CATSがParetoの精度を向上し、100言語規模の大規模な多言語設定に効果的に適用できることが示されている。
関連論文リスト
- X-ALMA: Plug & Play Modules and Adaptive Rejection for Quality Translation at Scale [25.257770733168012]
大規模言語モデル(LLM)は、様々なNLPタスクで顕著な成功を収めてきたが、主に英語に焦点を当てている。
本稿では,多言語機械翻訳タスクに着目し,言語数よりも品質を優先する。
X-ALMAは、リソースレベルに関係なく、50の異なる言語で最高のパフォーマンスを保証することを約束するモデルである。
論文 参考訳(メタデータ) (2024-10-04T03:17:27Z) - On the Pareto Front of Multilingual Neural Machine Translation [123.94355117635293]
我々は、ニューラルネットワーク翻訳(MNMT)におけるサンプリング比によって、与えられた方向の性能がどう変化するかを検討する。
我々は,MNMTにおけるユニークなパフォーマンストレードオフフロントを予測するために,ダブルパワー法を提案する。
本実験では, トレーニング予算の1/5から1/2に過ぎず, 温度探索法や勾配操作法よりも優れた性能が得られた。
論文 参考訳(メタデータ) (2023-04-06T16:49:19Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - Parameter-Efficient Neural Reranking for Cross-Lingual and Multilingual
Retrieval [66.69799641522133]
最先端のニューラルランカーは、お腹が空いていることで悪名高い。
現在のアプローチでは、英語データに基づいて訓練されたローダを、多言語エンコーダを用いて他の言語や言語間設定に転送するのが一般的である。
本研究では,Sparse Fine-Tuning Masks (SFTMs) とAdapters (Adapters) の2つのパラメータ効率のアプローチにより,より軽量で効果的なゼロショット転送が可能となることを示す。
論文 参考訳(メタデータ) (2022-04-05T15:44:27Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Gradient Vaccine: Investigating and Improving Multi-task Optimization in
Massively Multilingual Models [63.92643612630657]
本稿では、損失関数幾何学のレンズを通して多言語最適化のブラックボックスを覗き込もうとする。
最適化軌道に沿って測定された勾配類似性は重要な信号であり、言語近接とよく相関している。
そこで我々はGradient Vaccineというシンプルでスケーラブルな最適化手法を考案した。
論文 参考訳(メタデータ) (2020-10-12T17:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。