論文の概要: Dynamic Language Group-Based MoE: Enhancing Efficiency and Flexibility for Code-Switching Speech Recognition
- arxiv url: http://arxiv.org/abs/2407.18581v1
- Date: Fri, 26 Jul 2024 08:03:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 14:00:25.403374
- Title: Dynamic Language Group-Based MoE: Enhancing Efficiency and Flexibility for Code-Switching Speech Recognition
- Title(参考訳): 動的言語グループに基づくMoE:コードスイッチング音声認識の効率性と柔軟性向上
- Authors: Hukai Huang, Shenghui Lu, Yahui Shan, He Qu, Wenhao Guan, Qingyang Hong, Lin Li,
- Abstract要約: Mixture of Experts (MoE)アプローチは、多言語とコードスイッチング(CS)の課題に対処するのに理想的だ。
本研究はバイリンガルシナリオとCSシナリオに最適化されたDLG-MoEを紹介する。
- 参考スコア(独自算出の注目度): 8.721337884357027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Mixture of Experts (MoE) approach is ideally suited for tackling multilingual and code-switching (CS) challenges due to its multi-expert architecture. This work introduces the DLG-MoE, which is optimized for bilingual and CS scenarios. Our novel Dynamic Language Group-based MoE layer features a language router with shared weights for explicit language modeling, while independent unsupervised routers within the language group handle attributes beyond language. This structure not only enhances expert extension capabilities but also supports dynamic top-k training, allowing for flexible inference across various top-k values and improving overall performance. The model requires no pre-training and supports streaming recognition, achieving state-of-the-art (SOTA) results with unmatched flexibility compared to other methods. The Code will be released.
- Abstract(参考訳): Mixture of Experts (MoE)アプローチは、マルチ言語とコードスイッチング(CS)の課題に取り組むのに理想的だ。
本研究はバイリンガルシナリオとCSシナリオに最適化されたDLG-MoEを紹介する。
我々の新しいDynamic Language GroupベースのMoEレイヤは、明示的な言語モデリングのための共有重みを持つ言語ルータを備えており、言語グループ内の独立した教師なしルータは、言語以外の属性を処理する。
この構造は、熟練した拡張能力を向上するだけでなく、動的トップkトレーニングもサポートし、様々なトップk値に対する柔軟な推論を可能にし、全体的なパフォーマンスを向上させる。
このモデルは事前トレーニングを必要とせず、ストリーミング認識をサポートし、最先端(SOTA)結果を達成する。
コードはリリースされる。
関連論文リスト
- A Parameter-efficient Language Extension Framework for Multilingual ASR [25.758826304861948]
本稿では,言語拡張のためのアーキテクチャベースのフレームワークを提案する。
パラメータ効率が良く、新しい言語に適応するためにアドオンモジュールを漸進的に組み込むように設計されている。
幅広い低パフォーマンスデータサイズを持つ5つの新しい言語で実験を行う。
論文 参考訳(メタデータ) (2024-06-10T14:46:07Z) - CMULAB: An Open-Source Framework for Training and Deployment of Natural Language Processing Models [59.91221728187576]
本稿では,NLPモデルのモデル展開と連続的なヒューマン・イン・ザ・ループの微調整を簡単にするオープンソースフレームワークであるCMU言語バックエンドを紹介する。
CMULABは、マルチ言語モデルのパワーを活用して、音声認識、OCR、翻訳、構文解析などの既存のツールを新しい言語に迅速に適応し、拡張することができる。
論文 参考訳(メタデータ) (2024-04-03T02:21:46Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Improving Massively Multilingual ASR With Auxiliary CTC Objectives [40.10307386370194]
FLEURSは102言語によるオープンASRベンチマークである。
我々は,最近のコネクショニスト時間分類(CTC)研究から着想を得た手法を考察し,モデルが多数の言語を扱えるようにした。
コンバータアーキテクチャを用いた自己教師型モデルを用いた最先端システムでは,相対28.4%CERによるFLEURSの先行研究よりも改善されている。
論文 参考訳(メタデータ) (2023-02-24T18:59:51Z) - Multi-level Distillation of Semantic Knowledge for Pre-training
Multilingual Language Model [15.839724725094916]
マルチレベル多言語知識蒸留(MMKD)は,多言語言語モデルを改善するための新しい手法である。
我々は、英語のBERTでリッチな意味表現の知識を採用するために、教師中心のフレームワークを採用している。
我々は,XNLI,PAWS-X,XQuADなどの言語間評価ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2022-11-02T15:23:13Z) - Improving Policy Learning via Language Dynamics Distillation [87.27583619910338]
本稿では,言語記述による実演を前提とした環境動態予測モデルであるLanguage Dynamics Distillation(LDD)を提案する。
実演における言語記述は,環境全体にわたるサンプル効率と一般化を改善することを示す。
論文 参考訳(メタデータ) (2022-09-30T19:56:04Z) - Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。
事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚する
インタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文 参考訳(メタデータ) (2022-06-13T17:34:22Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。