論文の概要: Beyond Hard Sharing: Efficient Multi-Task Speech-to-Text Modeling with Supervised Mixture of Experts
- arxiv url: http://arxiv.org/abs/2508.10009v1
- Date: Tue, 05 Aug 2025 23:56:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:47.99984
- Title: Beyond Hard Sharing: Efficient Multi-Task Speech-to-Text Modeling with Supervised Mixture of Experts
- Title(参考訳): ハーフシェアリングを超えて: 教師付きエキスパート混在を用いた効率的なマルチタスク音声テキストモデリング
- Authors: Hojun Jin, Eunsoo Hong, Ziwon Hyung, Sungjun Lim, Seungjin Lee, Keunseok Cho,
- Abstract要約: S-MoE(Supervised Mixture of Experts)を提案する。
S-MoEは、各タスクを指定された専門家にルーティングする特別なガイドトークンを利用することで、ゲーティング機能のトレーニングを不要にする。
我々は、S-MoEを音声-テキストモデルに適用し、自動音声認識(ASR)と音声翻訳(ST)を併用しながら、混合帯域入力を処理できるようにする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hard-parameter sharing is a common strategy to train a single model jointly across diverse tasks. However, this often leads to task interference, impeding overall model performance. To address the issue, we propose a simple yet effective Supervised Mixture of Experts (S-MoE). Unlike traditional Mixture of Experts models, S-MoE eliminates the need for training gating functions by utilizing special guiding tokens to route each task to its designated expert. By assigning each task to a separate feedforward network, S-MoE overcomes the limitations of hard-parameter sharing. We further apply S-MoE to a speech-to-text model, enabling the model to process mixed-bandwidth input while jointly performing automatic speech recognition (ASR) and speech translation (ST). Experimental results demonstrate the effectiveness of the proposed S-MoE, achieving a 6.35% relative improvement in Word Error Rate (WER) when applied to both the encoder and decoder.
- Abstract(参考訳): ハードパラメータ共有は、さまざまなタスクでひとつのモデルを共同でトレーニングするための一般的な戦略です。
しかし、これはしばしばタスクの干渉を引き起こし、全体のモデルパフォーマンスを妨げる。
そこで本研究では,S-MoE(Supervised Mixture of Experts)を提案する。
従来のMixture of Expertsモデルとは異なり、S-MoEは特別なガイドトークンを使用して各タスクを指定されたエキスパートにルーティングすることでゲーティング機能のトレーニングを不要にする。
各タスクを別のフィードフォワードネットワークに割り当てることで、S-MoEはハードパラメータ共有の限界を克服する。
さらに、S-MoEを音声-テキストモデルに適用し、自動音声認識(ASR)と音声翻訳(ST)を併用しながら、混合帯域入力を処理できるようにする。
実験により,提案したS-MoEの有効性が示され,エンコーダとデコーダの両方に適用した場合の単語誤り率(WER)が6.35%向上した。
関連論文リスト
- MoIIE: Mixture of Intra- and Inter-Modality Experts for Large Vision Language Models [52.876185634349575]
我々は、モダリティ内およびモダリティ間エキスパート(MoIIE)の混合をLVLM(Large Vision-Language Models)に組み込むことを提案する。
それぞれのトークンに対して、専門家のルーティングはそのモダリティによってガイドされ、それぞれのモダリティの専門家と、モダリティ間のエキスパートの共有プールにトークンを指示する。
5.5B と 11.3B の活性化パラメータを持つ MoIIE モデルは,既存のオープンソース MoE-LLM ベースのマルチモーダルモデルの性能に適合するか,さらに上回っている。
論文 参考訳(メタデータ) (2025-08-13T13:00:05Z) - Multi-Task Dense Prediction Fine-Tuning with Mixture of Fine-Grained Experts [22.936728143586443]
密集予測のためのマルチタスク学習(MTL)は有望な結果を示しているが、タスク固有の特殊化と共有表現のバランスをとる上ではまだ課題に直面している。
3つの重要なイノベーションとファインチューニングを組み合わせることで、MoEベースのMTLモデルを探索する、ファイングラインド・ミックス・オブ・エキスパートアーキテクチャを導入する。
論文 参考訳(メタデータ) (2025-07-25T08:59:30Z) - Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。
マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。
WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T07:16:31Z) - Dynamic Mixture of Experts: An Auto-Tuning Approach for Efficient Transformer Models [33.834215393960605]
本稿では,DynMoE(Dynamic Mixture of Experts)技術を紹介する。
DynMoEには、各トークンがアクティベートする専門家の数を自動的に決定できる新しいゲーティングメソッドが組み込まれている。
視覚・言語タスクのGMoEと視覚言語タスクのMoE-LLaVAとの競合性能を比較検討した。
論文 参考訳(メタデータ) (2024-05-23T08:18:30Z) - Multi-Head Mixture-of-Experts [100.60556163597946]
MH-MoE(Multi-Head Mixture-of-Experts)を提案する。
MH-MoEは、他のSMoE最適化手法の実装と分離が容易であり、性能向上のために他のSMoEモデルとの統合が容易である。
論文 参考訳(メタデータ) (2024-04-23T13:47:09Z) - Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。
従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。
本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文 参考訳(メタデータ) (2024-02-01T08:58:57Z) - Mod-Squad: Designing Mixture of Experts As Modular Multi-Task Learners [74.92558307689265]
専門家グループ("スクワッド")にモジュール化された新しいモデルであるMod-Squadを提案する。
単一モデルのトレーニング中に、このマッチングプロセスを最適化する。
13の視覚タスクを持つタスクノミーデータセットと、5つの視覚タスクを持つPASCAL-Contextデータセットの実験は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2022-12-15T18:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。