Fugu-MT 論文翻訳(概要): Mixture of Modular Experts: Distilling Knowledge from a Multilingual Teacher into Specialized Modular Language Models

論文の概要: Mixture of Modular Experts: Distilling Knowledge from a Multilingual Teacher into Specialized Modular Language Models

arxiv url: http://arxiv.org/abs/2407.19610v1
Date: Sun, 28 Jul 2024 23:42:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-30 15:35:33.620313
Title: Mixture of Modular Experts: Distilling Knowledge from a Multilingual Teacher into Specialized Modular Language Models
Title（参考訳）: モジュール言語エキスパートの混在:多言語教師から専門化モジュール言語モデルへの知識の希薄化
Authors: Mohammed Al-Maamari, Mehdi Ben Amor, Michael Granitzer,
Abstract要約: この研究は、知識蒸留(KD)とMixture of Experts(MoE)を組み合わせて、モジュール化された効率的な多言語言語モデルを開発する。主な目的は、KDにおける適応型と固定型アルファメソッドの評価と、マルチドメイン入力を処理するモジュール型のMoEアーキテクチャの比較である。
参考スコア（独自算出の注目度）: 0.6372911857214884
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This research combines Knowledge Distillation (KD) and Mixture of Experts (MoE) to develop modular, efficient multilingual language models. Key objectives include evaluating adaptive versus fixed alpha methods in KD and comparing modular MoE architectures for handling multi-domain inputs and preventing catastrophic forgetting. KD compresses large language models (LLMs) into smaller, efficient models, while MoE enhances modularity with specialized tasks. Experiments showed similar performance for both KD methods, with marginal improvements from adaptive alpha. A combined loss approach provided more stable learning. The router, trained to classify input sequences into English, French, German, or Python, achieved 99.95% precision, recall, and F1 score, with Logistic Regression being the most effective classifier. Evaluations of modular MoE architectures revealed that Pre-trained Language Experts (PLE) and Joint Expert Embedding Training (JEET) performed similarly, while the MoE with Common Expert (MoE-CE) setup showed slightly lower performance. Including a common expert in MoE-CE improved its performance. Studies on catastrophic forgetting indicated that sequential training led to significant forgetting, while single-session training with balanced batches and the MoE approach mitigated this issue. The MoE architecture preserved knowledge across multiple languages effectively. The research contributes open-sourced resources including the dataset (https://zenodo.org/doi/10.5281/zenodo.12677631), a balanced dataset creation tool (https://github.com/padas-lab-de/multi-language-dataset-creator), and the research codebase (https://github.com/ModMaamari/mixture-modular-experts).
Abstract（参考訳）: この研究は、知識蒸留(KD)とMixture of Experts(MoE)を組み合わせて、モジュール化された効率的な多言語言語モデルを開発する。主な目的は、KDにおける適応型と固定型アルファメソッドの評価、マルチドメイン入力を処理するモジュール型のMoEアーキテクチャの比較、破滅的な忘れの防止などである。 KDは大きな言語モデル(LLM)をより小さく効率的なモデルに圧縮し、MoEは特殊なタスクでモジュール化を強化する。両KD法でも同様の性能を示し, 適応アルファによる限界改善が認められた。複合的な損失アプローチにより、より安定した学習が可能となった。入力シーケンスを英語、フランス語、ドイツ語、Pythonに分類する訓練を受けたルータは、99.95%の精度、リコール、F1スコアを達成した。モジュール型 MoE アーキテクチャの評価では、事前訓練言語エキスパート (PLE) とジョイントエキスパート埋め込みトレーニング (JEET) も同様に実行され、MoE with Common Expert (MoE-CE) のセットアップでは若干性能が低下した。 MoE-CEの一般の専門家を含め、その性能は向上した。破滅的な忘れ込みの研究は、逐次トレーニングが大きな忘れ込みにつながったことを示しているが、バランスの取れたバッチとMoEアプローチによるシングルセッショントレーニングはこの問題を緩和した。 MoEアーキテクチャは、複数の言語にわたる知識を効果的に保存した。この研究は、データセット(https://github.org/doi/10.5281/zenodo.12677631)、バランスのとれたデータセット作成ツール(https://github.com/padas-lab-de/multi- Language-dataset-creator)、研究コードベース(https://github.com/ModMaamari/mixture-modular-experts)などのオープンソースリソースに貢献している。

関連論文リスト

SMAR: Soft Modality-Aware Routing Strategy for MoE-based Multimodal Large Language Models Preserving Language Capabilities [13.808550562570275]
既存のマルチモーダルMOEモデル構築方法は、トレーニングコストが高いか、事前訓練されたモデルを適用する際に言語能力の劣化に悩まされる。そこで我々は,Kullback Leibler の発散を利用してルーティング確率分布を制御する新しい正規化手法である Soft Modality Aware Routing (SMAR) を提案する。ビジュアル・インストラクション・チューニングの実験では、SMARは86.6%の保持率を維持し、純粋なテキストはわずか2.5%であり、高いマルチモーダル性能を維持しながらベースラインを上回っている。
論文参考訳（メタデータ） (2025-06-06T12:47:29Z)
The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [54.59207567677249]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文参考訳（メタデータ） (2025-05-23T20:28:31Z)
Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs [111.69640966866059]
ミキチャー・オブ・エキスパート(MoE)と1兆近いパラメータを持つ疎大言語モデル(LLM)が、最も有能な言語モデルの領域を支配している。本稿では,Ascend NPU上でそのようなスケールを利用するレシピを明らかにすることを目的としている。主な目的は、動的スパースモデル構造下でのコンピューティングリソースのより良い使用と、実際のハードウェアで期待されるパフォーマンス向上の実現である。
論文参考訳（メタデータ） (2025-05-07T15:46:36Z)
MoE-LPR: Multilingual Extension of Large Language Models through Mixture-of-Experts with Language Priors Routing [78.62611800987817]
大規模言語モデル(LLM)は、事前学習データに言語が不均等に分布するため、しばしば英語中心である。そこで本稿では,MoE-LPR (Mixture-of-Experts with Language Priors) と呼ばれる手法を提案する。
論文参考訳（メタデータ） (2024-08-21T07:43:49Z)
CoLLiE: Collaborative Training of Large Language Models in an Efficient Way [59.09824823710863]
CoLLiEは、大規模な言語モデルの協調トレーニングを容易にする効率的なライブラリである。モジュール設計と包括的な機能により、CoLLiEは効率性、使いやすさ、カスタマイズのバランスのとれたブレンドを提供する。
論文参考訳（メタデータ） (2023-12-01T08:02:16Z)
ModuleFormer: Modularity Emerges from Mixture-of-Experts [60.6148988099284]
本稿では,大規模言語モデルの効率性と柔軟性を向上させるために,新しいニューラルネットワークアーキテクチャであるModuleFormerを提案する。以前のSMoEベースのモジュラー言語モデルとは異なり、ModuleFormerは未処理のデータからモジュラリティを誘導することができる。
論文参考訳（メタデータ） (2023-06-07T17:59:57Z)
Improving Massively Multilingual ASR With Auxiliary CTC Objectives [40.10307386370194]
FLEURSは102言語によるオープンASRベンチマークである。我々は,最近のコネクショニスト時間分類(CTC)研究から着想を得た手法を考察し,モデルが多数の言語を扱えるようにした。コンバータアーキテクチャを用いた自己教師型モデルを用いた最先端システムでは,相対28.4%CERによるFLEURSの先行研究よりも改善されている。
論文参考訳（メタデータ） (2023-02-24T18:59:51Z)
Fixing MoE Over-Fitting on Low-Resource Languages in Multilingual Machine Translation [8.7660229706359]
多言語機械翻訳のためのモデルキャパシティをスケールするための計算効率のよい方法として,Mixture of Experts (MoE)モデルが広く知られている。低リソースタスクにおけるMoEモデルの性能向上と過度な適合を防止する効果的な正規化戦略を示す。
論文参考訳（メタデータ） (2022-12-15T01:06:55Z)
EMS: Efficient and Effective Massively Multilingual Sentence Embedding Learning [38.928786416891924]
我々は,クロスリンガルトークンレベル再構築(XTR)と文レベルのコントラスト学習を訓練目的として,効率的で効果的な多言語文埋め込み(EMS)を導入する。関連する研究と比較すると,提案したモデルは,非常に少ない並列文とGPU計算資源を用いて効率的に訓練することができる。我々は、62言語をサポートするモデルトレーニング用コードと、EMS事前訓練文埋め込みモデルをリリースする。
論文参考訳（メタデータ） (2022-05-31T12:29:25Z)
MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文参考訳（メタデータ） (2022-04-15T23:19:37Z)
Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文参考訳（メタデータ） (2021-12-20T17:05:11Z)
Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。 50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文参考訳（メタデータ） (2021-09-22T00:57:46Z)
A Data Efficient End-To-End Spoken Language Understanding Architecture [22.823732899634518]
我々は、事前訓練された外部モジュールを追加せずに、エンドツーエンドで訓練されたデータ効率システムを導入する。提案モデルでは,小規模なトレーニングデータセットを用いて,最先端技術に対して,適切なサイズと競争力のある結果が得られる。
論文参考訳（メタデータ） (2020-02-14T10:24:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。