論文の概要: MiLorE-SSL: Scaling Multilingual Capabilities in Self-Supervised Models without Forgetting
- arxiv url: http://arxiv.org/abs/2601.20300v1
- Date: Wed, 28 Jan 2026 06:48:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.799422
- Title: MiLorE-SSL: Scaling Multilingual Capabilities in Self-Supervised Models without Forgetting
- Title(参考訳): MiLorE-SSL: 予測せずに自己監視モデルで多言語機能をスケールアップする
- Authors: Jing Xu, Minglin Wu, Xueyuan Chen, Xixin Wu, Helen Meng,
- Abstract要約: MiLorE-SSLは、LoRAモジュールとソフトミキシング・オブ・エキスパート・メカニズムを組み合わせて、効率的な連続多言語トレーニングを行う軽量フレームワークである。
LoRAは効率的な低ランク適応を提供するが、ソフトなMoEは言語間のフレキシブルな専門家共有を促進し、言語間の干渉を減らす。
ML-SUPERBの実験では、MiLorE-SSLは新しい言語で高いパフォーマンスを実現し、2.14%のトレーニング可能なパラメータで既存の言語での性能を向上させることが示されている。
- 参考スコア(独自算出の注目度): 69.6938830307759
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL) has greatly advanced speech representation learning, but multilingual SSL models remain constrained to languages encountered during pretraining. Retraining from scratch to incorporate new languages is computationally expensive, while sequential training without migitation strategies often leads to catastrophic forgetting. To address this, we propose MiLorE-SSL, a lightweight framework that combines LoRA modules with a soft mixture-of-experts (MoE) mechanism for efficient continual multilingual training. LoRA provides efficient low-rank adaptation, while soft MoE promotes flexible expert sharing across languages, reducing cross-lingual interference. To further mitigate forgetting, we introduce limited replay data from existing languages, avoiding reliance on large historical corpora. Experiments on ML-SUPERB demonstrate that MiLorE-SSL achieves strong performance in new languages and improves the ability in existing ones with only 2.14% trainable parameters.
- Abstract(参考訳): 自己教師付き学習(SSL)は、言語表現学習が大幅に進歩するが、多言語SSLモデルは、事前訓練中に遭遇する言語に制約されないままである。
スクラッチから新しい言語を組み込むためのトレーニングは計算に費用がかかるが、緩和戦略を伴わない逐次トレーニングは、しばしば破滅的な忘れを招く。
そこで本研究では,LoRAモジュールとソフトミキシング・オブ・エキスパート(MoE)機構を組み合わせる軽量フレームワークであるMiLorE-SSLを提案する。
LoRAは効率的な低ランク適応を提供するが、ソフトなMoEは言語間のフレキシブルな専門家共有を促進し、言語間の干渉を減らす。
忘れを和らげるために,既存の言語からの制限されたリプレイデータを導入し,大規模な歴史的コーパスへの依存を回避した。
ML-SUPERBの実験では、MiLorE-SSLは新しい言語で高いパフォーマンスを実現し、2.14%のトレーニング可能なパラメータで既存の言語での性能を向上させることが示されている。
関連論文リスト
- Lamer-SSL: Layer-aware Mixture of LoRA Experts for Continual Multilingual Expansion of Self-supervised Models without Forgetting [69.6938830307759]
Lamer-SSLはパラメータ効率のよいフレームワークで、LoRA Experts(Lamer)モジュールのLayer-Aware MixturEとリプレイ戦略を統合する。
自動音声認識(ASR)と言語識別(LID)の実験により、Lamer-SSLは自己教師付きモデルを新しい言語に効果的に拡張することを示した。
論文 参考訳(メタデータ) (2026-02-13T09:22:22Z) - MoE-LPR: Multilingual Extension of Large Language Models through Mixture-of-Experts with Language Priors Routing [78.62611800987817]
大規模言語モデル(LLM)は、事前学習データに言語が不均等に分布するため、しばしば英語中心である。
そこで本稿では,MoE-LPR (Mixture-of-Experts with Language Priors) と呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2024-08-21T07:43:49Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Seamless Language Expansion: Enhancing Multilingual Mastery in Self-Supervised Models [69.59613095232598]
既存のSSLモデルにLoRAを統合して新しい言語を拡張する適応手法を提案する。
また、既存の言語における能力を維持するために、データの組み合わせと再クラスタ化を含む保存戦略も開発している。
論文 参考訳(メタデータ) (2024-06-20T08:13:30Z) - Towards a More Inclusive AI: Progress and Perspectives in Large Language Model Training for the Sámi Language [7.289015788793582]
本研究は、S'ami言語における技術参加の増大に焦点を当てている。
我々は,Ultra Low Resource (ULR)言語の言語モデリング問題に対して,MLコミュニティの注目を集めている。
Webから利用可能なS'ami言語リソースをコンパイルして、言語モデルをトレーニングするためのクリーンなデータセットを作成しました。
論文 参考訳(メタデータ) (2024-05-09T13:54:22Z) - Breaking the Curse of Multilinguality with Cross-lingual Expert Language Models [110.10545153845051]
X-ELM(X-Langual Expert Language Models、X-ELM)は、X-ELMを異なる言語に専門化するプロセスである。
新しい専門家を反復的に追加し、破滅的な忘れをせずに新しい言語にX-ELMを適用する。
論文 参考訳(メタデータ) (2024-01-19T01:07:50Z) - Improving Language Plasticity via Pretraining with Active Forgetting [63.36484652568976]
本稿では,新しい言語に迅速に適応可能な PLM を作成する簡単な方法として,事前学習中に能動的に忘れる機構を提案する。
RoBERTaを用いた実験では、忘れるメカニズムで事前訓練されたモデルは、言語適応中により高速な収束を示す。
論文 参考訳(メタデータ) (2023-07-03T17:12:44Z) - MergeDistill: Merging Pre-trained Language Models using Distillation [5.396915402673246]
我々は、最小限の依存関係で彼らの資産を最大限に活用できる方法で、事前訓練されたLMをマージするフレームワークであるMergeDistillを提案する。
我々は,既存の教師LMと,何桁ものデータと固定モデルキャパシティで訓練された教師LMとの競争力や性能を向上する訓練学生LMを活用して,実践的にフレームワークの適用性を実証する。
論文 参考訳(メタデータ) (2021-06-05T08:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。