Fugu-MT 論文翻訳(概要): Fixing MoE Over-Fitting on Low-Resource Languages in Multilingual Machine Translation

論文の概要: Fixing MoE Over-Fitting on Low-Resource Languages in Multilingual Machine Translation

arxiv url: http://arxiv.org/abs/2212.07571v1
Date: Thu, 15 Dec 2022 01:06:55 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-16 15:47:39.530399
Title: Fixing MoE Over-Fitting on Low-Resource Languages in Multilingual Machine Translation
Title（参考訳）: マルチ言語機械翻訳における低リソース言語へのMoEオーバーフィッティングの修正
Authors: Maha Elbayad and Anna Sun and Shruti Bhosale
Abstract要約: 多言語機械翻訳のためのモデルキャパシティをスケールするための計算効率のよい方法として,Mixture of Experts (MoE)モデルが広く知られている。低リソースタスクにおけるMoEモデルの性能向上と過度な適合を防止する効果的な正規化戦略を示す。
参考スコア（独自算出の注目度）: 8.7660229706359
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Sparsely gated Mixture of Experts (MoE) models have been shown to be a compute-efficient method to scale model capacity for multilingual machine translation. However, for low-resource tasks, MoE models severely over-fit. We show effective regularization strategies, namely dropout techniques for MoE layers in EOM and FOM, Conditional MoE Routing and Curriculum Learning methods that prevent over-fitting and improve the performance of MoE models on low-resource tasks without adversely affecting high-resource tasks. On a massively multilingual machine translation benchmark, our strategies result in about +1 chrF++ improvement in very low resource language pairs. We perform an extensive analysis of the learned MoE routing to better understand the impact of our regularization methods and how we can improve them.
Abstract（参考訳）: 多言語機械翻訳のためのモデルキャパシティをスケールするための計算効率のよい手法として,Mixture of Experts (MoE)モデルがある。しかし、低リソースタスクでは、MoEモデルは極めて過度に適合する。 EOM や FOM の MoE 層に対する効果的な正規化手法,条件付き MoE ルーティングおよびカリキュラム学習手法,低リソースタスクにおける MoE モデルの過度な適合と性能向上を,高リソースタスクに悪影響を及ぼすことなく実現する。超多言語機械翻訳ベンチマークでは、非常に低いリソース言語ペアで約+1chrf++が改善された。我々は、学習したMoEルーティングを広範囲に分析し、正規化方法の影響とそれらを改善する方法についてより深く理解する。

関連論文リスト

PUMA: Layer-Pruned Language Model for Efficient Unified Multimodal Retrieval with Modality-Adaptive Learning [54.73049408950049]
モーダリティ適応型学習を伴う効率的な統一マルチモーダル検索のための階層型言語モデルを提案する。本手法は,構造的,学習的両面からの統合的マルチモーダル検索を改善する。
論文参考訳（メタデータ） (2025-07-10T16:47:25Z)
SMAR: Soft Modality-Aware Routing Strategy for MoE-based Multimodal Large Language Models Preserving Language Capabilities [13.808550562570275]
既存のマルチモーダルMOEモデル構築方法は、トレーニングコストが高いか、事前訓練されたモデルを適用する際に言語能力の劣化に悩まされる。そこで我々は,Kullback Leibler の発散を利用してルーティング確率分布を制御する新しい正規化手法である Soft Modality Aware Routing (SMAR) を提案する。ビジュアル・インストラクション・チューニングの実験では、SMARは86.6%の保持率を維持し、純粋なテキストはわずか2.5%であり、高いマルチモーダル性能を維持しながらベースラインを上回っている。
論文参考訳（メタデータ） (2025-06-06T12:47:29Z)
The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [54.59207567677249]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文参考訳（メタデータ） (2025-05-23T20:28:31Z)
Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文参考訳（メタデータ） (2025-01-31T12:23:28Z)
Mitigating Catastrophic Forgetting in Language Transfer via Model Merging [16.845734486667226]
ブランチ・アンド・マージ(BaM)は複数のモデルを反復的にマージする手法である。 BaMは、これが低等級であるがより高い品質の重量変化をもたらすという知見に基づいている。ブルガリア語とドイツ語の実証研究において、BaMは、マッチングやターゲットドメインの性能の向上を伴いながら、忘れを著しく低減できることを示した。
論文参考訳（メタデータ） (2024-07-11T17:32:40Z)
Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。 Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文参考訳（メタデータ） (2024-07-04T15:14:17Z)
MoE-CT: A Novel Approach For Large Language Models Training With Resistance To Catastrophic Forgetting [53.77590764277568]
ベースモデルの学習を多言語拡張プロセスから分離する新しいMoE-CTアーキテクチャを提案する。我々の設計では、元のLLMパラメータを凍結し、高リソース言語のパフォーマンスを保護しますが、様々な言語データセットに基づいてトレーニングされたMoEモジュールは、低リソース言語の習熟度を向上します。
論文参考訳（メタデータ） (2024-06-25T11:03:45Z)
Too Brittle To Touch: Comparing the Stability of Quantization and Distillation Towards Developing Lightweight Low-Resource MT Models [12.670354498961492]
最先端の機械翻訳モデルは、しばしば低リソース言語のデータに適応することができる。知識蒸留(Knowledge Distillation)は、競争力のある軽量モデルを開発するための一般的な技術である。
論文参考訳（メタデータ） (2022-10-27T05:30:13Z)
PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文参考訳（メタデータ） (2022-04-05T16:11:45Z)
Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。 50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文参考訳（メタデータ） (2021-09-22T00:57:46Z)
Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文参考訳（メタデータ） (2021-09-09T03:48:35Z)
Improving Massively Multilingual Neural Machine Translation and Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文参考訳（メタデータ） (2020-04-24T17:21:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。