論文の概要: Dynamic Language Group-Based MoE: Enhancing Code-Switching Speech Recognition with Hierarchical Routing
- arxiv url: http://arxiv.org/abs/2407.18581v4
- Date: Sun, 22 Dec 2024 03:01:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:54:42.634126
- Title: Dynamic Language Group-Based MoE: Enhancing Code-Switching Speech Recognition with Hierarchical Routing
- Title(参考訳): 動的言語グループに基づくMoE:階層的ルーティングによるコードスイッチング音声認識の実現
- Authors: Hukai Huang, Shenghui Lu, Yahui Shan, He Qu, Fengrun Zhang, Wenhao Guan, Qingyang Hong, Lin Li,
- Abstract要約: Mixture of Experts (MoE)は、コードスイッチング音声認識(CS-ASR)タスクを扱うための有望なアプローチである。
CS-ASRタスクを効果的に処理できる動的言語グループベースのMoEであるDLG-MoEを提案する。
さまざまなトップ$の推論とストリーミング機能をサポートし、モデルパラメータを柔軟に訓練してモノリンガルなサブモデルを得ることもできる。
- 参考スコア(独自算出の注目度): 8.36121848069236
- License:
- Abstract: The Mixture of Experts (MoE) model is a promising approach for handling code-switching speech recognition (CS-ASR) tasks. However, the existing CS-ASR work on MoE has yet to leverage the advantages of MoE's parameter scaling ability fully. This work proposes DLG-MoE, a Dynamic Language Group-based MoE, which can effectively handle the CS-ASR task and leverage the advantages of parameter scaling. DLG-MoE operates based on a hierarchical routing mechanism. First, the language router explicitly models the language attribute and dispatches the representations to the corresponding language expert groups. Subsequently, the unsupervised router within each language group implicitly models attributes beyond language and coordinates expert routing and collaboration. DLG-MoE outperforms the existing MoE methods on CS-ASR tasks while demonstrating great flexibility. It supports different top-$k$ inference and streaming capabilities and can also prune the model parameters flexibly to obtain a monolingual sub-model. The code has been released.
- Abstract(参考訳): The Mixture of Experts (MoE) model is a promising approach for handle code-switching speech recognition (CS-ASR) task。
しかし、既存のCS-ASRのMoEでの作業は、まだMoEのパラメータスケーリング能力の利点を十分に活用していない。
本研究では、CS-ASRタスクを効果的に処理し、パラメータスケーリングの利点を活用する動的言語グループベースのMoEであるDLG-MoEを提案する。
DLG-MoEは階層的なルーティング機構に基づいて動作する。
まず、言語ルータが明示的に言語属性をモデル化し、対応する言語専門家グループに表現をディスパッチする。
その後、各言語グループ内の教師なしルータは、言語以外の属性を暗黙的にモデル化し、専門家のルーティングとコラボレーションを調整する。
DLG-MoEは、CS-ASRタスク上で既存のMoEメソッドよりも優れた柔軟性を示す。
さまざまなトップ$の推論とストリーミング機能をサポートし、モデルパラメータを柔軟に訓練してモノリンガルなサブモデルを得ることもできる。
コードがリリースされた。
関連論文リスト
- Enhancing Code-Switching Speech Recognition with LID-Based Collaborative Mixture of Experts Model [12.030995417911296]
本研究では,専門家グループ間の協調的なメカニズムを活用するMixture of Experts(MoE)モデルであるCollaborative-MoEを提案する。
各言語専門家グループ内では、ゲーティングネットワークは、言語以外の属性に関するコラボレーションを促進するために教師なしの運営を行っている。
提案手法は,MoEモデルの特徴となる効率的な推論能力を,追加の事前学習を必要とせずに保持する。
論文 参考訳(メタデータ) (2024-09-03T16:53:38Z) - Understanding the role of FFNs in driving multilingual behaviour in LLMs [0.0]
本稿では,大規模言語モデル群における多言語機能の詳細な分析を行う。
異なるレイヤにおけるモデルの多言語的振る舞いを探索する新しいメトリクスを導入し、多言語処理におけるアーキテクチャ選択の影響について光を当てる。
論文 参考訳(メタデータ) (2024-04-22T03:47:00Z) - Language Models are Universal Embedders [48.12992614723464]
事前学習されたトランスフォーマーデコーダは、限定的な英語データに基づいて微調整された場合、普遍的に埋め込み可能であることを示す。
我々のモデルは、最小限のトレーニングデータにより、異なる埋め込みタスクにおける競争性能を達成する。
これらの結果は、強力な統合インバータを構築するための有望な道の証となる。
論文 参考訳(メタデータ) (2023-10-12T11:25:46Z) - Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文 参考訳(メタデータ) (2023-10-01T12:35:18Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。
事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚する
インタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文 参考訳(メタデータ) (2022-06-13T17:34:22Z) - Cross-Lingual Text Classification with Multilingual Distillation and
Zero-Shot-Aware Training [21.934439663979663]
多言語事前学習言語モデル(MPLM)に基づくマルチブランチ多言語言語モデル(MBLM)
教師学習フレームワークを用いた高性能単言語モデルからの知識の伝達に基づく方法
2つの言語横断型分類タスクの結果から,MPLMの教師付きデータのみを用いることで,教師付き性能とゼロショット性能が向上することが示された。
論文 参考訳(メタデータ) (2022-02-28T09:51:32Z) - Hierarchical Transformer for Multilingual Machine Translation [3.441021278275805]
多言語機械翻訳モデルにおけるパラメータ共有戦略の選択は、パラメータ空間の使用方法を決定する。
異なる言語間の関連性の程度を示す言語木に触発され、多言語機械翻訳におけるパラメータ共有に対する新しい一般的なアプローチが最近提案された。
注意深く選択されたトレーニング戦略の場合、階層的アーキテクチャは、パラメータの完全な共有により、バイリンガルモデルや多言語モデルを上回ることができる。
論文 参考訳(メタデータ) (2021-03-05T10:51:47Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。