Fugu-MT 論文翻訳(概要): Dynamic Language Group-Based MoE: Enhancing Code-Switching Speech Recognition with Hierarchical Routing

論文の概要: Dynamic Language Group-Based MoE: Enhancing Code-Switching Speech Recognition with Hierarchical Routing

arxiv url: http://arxiv.org/abs/2407.18581v2
Date: Wed, 7 Aug 2024 14:19:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-08 14:56:01.225860
Title: Dynamic Language Group-Based MoE: Enhancing Code-Switching Speech Recognition with Hierarchical Routing
Title（参考訳）: 動的言語グループに基づくMoE:階層的ルーティングによるコードスイッチング音声認識の実現
Authors: Hukai Huang, Shenghui Lu, Yahui Shan, He Qu, Wenhao Guan, Qingyang Hong, Lin Li,
Abstract要約: DLG-MoEは、バイリンガルおよびCSシナリオ向けに最適化された動的言語グループベースのMoEである。このモデルは、非並列な柔軟性を持ちながら、最先端(SOTA)のパフォーマンスを達成する。
参考スコア（独自算出の注目度）: 8.721337884357027
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The Mixture of Experts (MoE) approach is well-suited for multilingual and code-switching (CS) tasks due to its multi-expert architecture. This work introduces the DLG-MoE, a Dynamic Language Group-based MoE optimized for bilingual and CS scenarios. DLG-MoE operates based on a hierarchical routing mechanism. First, the language router explicitly models the language and dispatches the representations to the corresponding language expert groups. Subsequently, the unsupervised router within each language group implicitly models attributes beyond language, and coordinates expert routing and collaboration. The model achieves state-of-the-art (SOTA) performance while also having unparalleled flexibility. It supports different top-k inference and streaming capabilities, and can also prune the model parameters to obtain a monolingual sub-model. The Code will be released.
Abstract（参考訳）: Mixture of Experts (MoE) アプローチはマルチ言語およびコードスイッチング(CS)タスクに適している。 DLG-MoEは、バイリンガルおよびCSシナリオ向けに最適化された動的言語グループベースのMoEである。 DLG-MoEは階層的なルーティング機構に基づいて動作する。まず、言語ルータが言語を明示的にモデル化し、対応する言語専門家グループに表現をディスパッチする。その後、各言語グループ内の教師なしルータは、言語以外の属性を暗黙的にモデル化し、専門家のルーティングとコラボレーションを調整する。このモデルは、非並列な柔軟性を持ちながら、最先端(SOTA)のパフォーマンスを達成する。さまざまなトップk推論とストリーミング機能をサポートし、モデルパラメータを訓練してモノリンガルなサブモデルを得ることもできる。コードはリリースされる。

関連論文リスト

Understanding Multilingualism in Mixture-of-Experts LLMs: Routing Mechanism, Expert Specialization, and Layerwise Steering [61.0787902713059]
本研究では,中間層におけるルーティング動作を,支配言語に関連する共有専門家に適応的に誘導するルーティング誘導型ステアリング手法を提案する。私たちのコードはhttp://conctsai.com/multilingualism-in-Mixture-of-Experts-LLMsで利用可能です。
論文参考訳（メタデータ） (2026-01-20T15:04:25Z)
L-MoE: End-to-End Training of a Lightweight Mixture of Low-Rank Adaptation Experts [10.21556794551883]
L-MoE: LoRA エキスパートの軽量混合体について紹介する。 L-MoEは、MoEの専門家をタスク特化して低ランクのアダプタとして再定義する。 L-MoE の公式な数学的枠組みを提案する。
論文参考訳（メタデータ） (2025-10-19T08:44:25Z)
SMAR: Soft Modality-Aware Routing Strategy for MoE-based Multimodal Large Language Models Preserving Language Capabilities [13.808550562570275]
既存のマルチモーダルMOEモデル構築方法は、トレーニングコストが高いか、事前訓練されたモデルを適用する際に言語能力の劣化に悩まされる。そこで我々は,Kullback Leibler の発散を利用してルーティング確率分布を制御する新しい正規化手法である Soft Modality Aware Routing (SMAR) を提案する。ビジュアル・インストラクション・チューニングの実験では、SMARは86.6%の保持率を維持し、純粋なテキストはわずか2.5%であり、高いマルチモーダル性能を維持しながらベースラインを上回っている。
論文参考訳（メタデータ） (2025-06-06T12:47:29Z)
The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [54.59207567677249]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文参考訳（メタデータ） (2025-05-23T20:28:31Z)
ESPnet-SpeechLM: An Open Speech Language Model Toolkit [98.4525334631522]
音声言語モデル(SpeechLMs)の開発を民主化するオープンツールキットであるESPnet-SpeechLMを提案する。このツールキットは、音声処理タスクを普遍的な逐次モデリング問題としてフレーミングすることで標準化する。 ESPnet-SpeechLMを使用すると、ユーザーはタスクテンプレートを簡単に定義し、キー設定を設定することができ、シームレスで合理化されたSpeechLM開発が可能になる。
論文参考訳（メタデータ） (2025-02-21T05:21:58Z)
Chunk-Distilled Language Modeling [25.238256586953487]
Chunk-Distilled Language Modeling (CD-LM)は、現在の大規模言語モデル(LLM)における2つの課題に対処するテキスト生成のアプローチである。提案手法は,ディープネットワークベースのLCMと簡単な検索モジュールを組み合わせることで,単一のデコードステップでマルチトークンテキストチャンクを生成する。
論文参考訳（メタデータ） (2024-12-31T08:32:15Z)
DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文参考訳（メタデータ） (2024-09-30T07:01:21Z)
Boosting Code-Switching ASR with Mixture of Experts Enhanced Speech-Conditioned LLM [1.3089936156875277]
我々は,Mixture of Experts (MoE) ベースのコネクタと統合された音声条件付き大規模言語モデル (LLM) を提案する。音声認識タスクへのLLMのテキスト生成能力を向上するためのIDIT機構を提案する。また、複数の言語を効率的に管理するMoEアーキテクチャとのコネクタも提示する。
論文参考訳（メタデータ） (2024-09-24T09:20:22Z)
Enhancing Code-Switching Speech Recognition with LID-Based Collaborative Mixture of Experts Model [12.030995417911296]
本研究では,専門家グループ間の協調的なメカニズムを活用するMixture of Experts(MoE)モデルであるCollaborative-MoEを提案する。各言語専門家グループ内では、ゲーティングネットワークは、言語以外の属性に関するコラボレーションを促進するために教師なしの運営を行っている。提案手法は,MoEモデルの特徴となる効率的な推論能力を,追加の事前学習を必要とせずに保持する。
論文参考訳（メタデータ） (2024-09-03T16:53:38Z)
MoE-LPR: Multilingual Extension of Large Language Models through Mixture-of-Experts with Language Priors Routing [78.62611800987817]
大規模言語モデル(LLM)は、事前学習データに言語が不均等に分布するため、しばしば英語中心である。そこで本稿では,MoE-LPR (Mixture-of-Experts with Language Priors) と呼ばれる手法を提案する。
論文参考訳（メタデータ） (2024-08-21T07:43:49Z)
ULLME: A Unified Framework for Large Language Model Embeddings with Generation-Augmented Learning [72.90823351726374]
我々は,LLM間の双方向の注目を可能にする,柔軟でプラグアンドプレイな実装であるLULME(Unified framework for Large Language Model Embedding)を紹介した。また,テキスト埋め込みタスクのLLMを向上する新しい微調整手法であるGRL(Generation-augmented Representation Learning)を提案する。フレームワークの柔軟性と有効性を示すために、異なるバックボーンアーキテクチャを持つULLMEから事前訓練された3つのモデルをリリースする。
論文参考訳（メタデータ） (2024-08-06T18:53:54Z)
ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。 ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文参考訳（メタデータ） (2024-06-12T21:01:26Z)
Understanding the role of FFNs in driving multilingual behaviour in LLMs [0.0]
本稿では,大規模言語モデル群における多言語機能の詳細な分析を行う。異なるレイヤにおけるモデルの多言語的振る舞いを探索する新しいメトリクスを導入し、多言語処理におけるアーキテクチャ選択の影響について光を当てる。
論文参考訳（メタデータ） (2024-04-22T03:47:00Z)
WavLLM: Towards Robust and Adaptive Speech Large Language Model [93.0773293897888]
本稿では,2つのエンコーダを持つ頑健で適応的な音声大言語モデルであるWavLLMと,プロンプト対応のLoRA重み付けアダプタを紹介する。 ASR, ST, SV, ERなどのタスクを含むユニバーサル音声ベンチマークにおいて提案手法の有効性を検証し, SQA用ガオカオ英語聴取理解セット, CoT 評価セットなどの特殊データセットに適用する。
論文参考訳（メタデータ） (2024-03-31T12:01:32Z)
Language Models are Universal Embedders [48.12992614723464]
事前学習されたトランスフォーマーデコーダは、限定的な英語データに基づいて微調整された場合、普遍的に埋め込み可能であることを示す。我々のモデルは、最小限のトレーニングデータにより、異なる埋め込みタスクにおける競争性能を達成する。これらの結果は、強力な統合インバータを構築するための有望な道の証となる。
論文参考訳（メタデータ） (2023-10-12T11:25:46Z)
Reformulating Vision-Language Foundation Models and Datasets Towards Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。 UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文参考訳（メタデータ） (2023-10-01T12:35:18Z)
Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文参考訳（メタデータ） (2023-06-13T08:08:08Z)
Mixture-of-Expert Conformer for Streaming Multilingual ASR [33.14594179710925]
本稿では,マルチランガル・コンバータによるマルチランガル・コンバータを提案する。提案したMoE層は、専門家の数が増加するにつれて、一定の数のパラメータを活性化することで効率的な推論を提供する。提案したモデルを12言語で評価し,ベースラインよりも平均11.9%の相対的な改善を実現した。
論文参考訳（メタデータ） (2023-05-25T02:16:32Z)
Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚するインタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文参考訳（メタデータ） (2022-06-13T17:34:22Z)
Cross-Lingual Text Classification with Multilingual Distillation and Zero-Shot-Aware Training [21.934439663979663]
多言語事前学習言語モデル(MPLM)に基づくマルチブランチ多言語言語モデル(MBLM) 教師学習フレームワークを用いた高性能単言語モデルからの知識の伝達に基づく方法 2つの言語横断型分類タスクの結果から,MPLMの教師付きデータのみを用いることで,教師付き性能とゼロショット性能が向上することが示された。
論文参考訳（メタデータ） (2022-02-28T09:51:32Z)
Hierarchical Transformer for Multilingual Machine Translation [3.441021278275805]
多言語機械翻訳モデルにおけるパラメータ共有戦略の選択は、パラメータ空間の使用方法を決定する。異なる言語間の関連性の程度を示す言語木に触発され、多言語機械翻訳におけるパラメータ共有に対する新しい一般的なアプローチが最近提案された。注意深く選択されたトレーニング戦略の場合、階層的アーキテクチャは、パラメータの完全な共有により、バイリンガルモデルや多言語モデルを上回ることができる。
論文参考訳（メタデータ） (2021-03-05T10:51:47Z)
VECO: Variable and Flexible Cross-lingual Pre-training for Language Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文参考訳（メタデータ） (2020-10-30T03:41:38Z)
Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3～4%の性能評価を行った。
論文参考訳（メタデータ） (2020-04-09T01:03:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。