論文の概要: MoST: Mixing Speech and Text with Modality-Aware Mixture of Experts
- arxiv url: http://arxiv.org/abs/2601.10272v1
- Date: Thu, 15 Jan 2026 10:43:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.107484
- Title: MoST: Mixing Speech and Text with Modality-Aware Mixture of Experts
- Title(参考訳): MoST: モダリティを考慮した音声とテキストの混合-専門家の混合
- Authors: Yuxuan Lou, Kai Yang, Yang You,
- Abstract要約: MoST(Mixture of Speech and Text)は、音声処理とテキスト処理をシームレスに統合する新しい大規模言語モデルである。
入力型に基づいて、モダリティに適した専門家にトークンを指示する特殊な経路を導入する。
MoSTは、パラメータ数に匹敵する既存のモデルよりも一貫して優れています。
- 参考スコア(独自算出の注目度): 12.42628977620548
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present MoST (Mixture of Speech and Text), a novel multimodal large language model that seamlessly integrates speech and text processing through our proposed Modality-Aware Mixture of Experts (MAMoE) architecture. While current multimodal models typically process diverse modality representations with identical parameters, disregarding their inherent representational differences, we introduce specialized routing pathways that direct tokens to modality-appropriate experts based on input type. MAMoE simultaneously enhances modality-specific learning and cross-modal understanding through two complementary components: modality-specific expert groups that capture domain-specific patterns and shared experts that facilitate information transfer between modalities. Building on this architecture, we develop an efficient transformation pipeline that adapts the pretrained MoE language model through strategic post-training on ASR and TTS datasets, followed by fine-tuning with a carefully curated speech-text instruction dataset. A key feature of this pipeline is that it relies exclusively on fully accessible, open-source datasets to achieve strong performance and data efficiency. Comprehensive evaluations across ASR, TTS, audio language modeling, and spoken question answering benchmarks show that MoST consistently outperforms existing models of comparable parameter counts. Our ablation studies confirm that the modality-specific routing mechanism and shared experts design significantly contribute to performance gains across all tested domains. To our knowledge, MoST represents the first fully open-source speech-text LLM built on a Mixture of Experts architecture. \footnote{We release MoST model, training code, inference code, and training data at https://github.com/NUS-HPC-AI-Lab/MoST
- Abstract(参考訳): 提案するModality-Aware Mixture of Experts (MAMoE)アーキテクチャを用いて,音声処理とテキスト処理をシームレスに統合する多モーダル大規模言語モデルであるMoST(Mixture of Speech and Text)を提案する。
現行のマルチモーダルモデルでは,共通パラメータを用いた多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多
MAMoEは同時に、モダリティ固有の学習と、モダリティ間の情報伝達を促進するドメイン固有のパターンをキャプチャするモダリティ固有の専門家グループと、モダリティ間の情報伝達を促進する共有専門家の2つの相補的なコンポーネントを通じて、モダリティ固有の学習とクロスモーダル理解を強化する。
このアーキテクチャに基づいて, ASR と TTS のデータセットを戦略的に後処理することで, 事前学習した MoE 言語モデルに適応する効率的な変換パイプラインを構築し, その後, 注意深く学習した音声文の命令データセットによる微調整を行う。
このパイプラインの重要な特徴は、強力なパフォーマンスとデータ効率を達成するために、完全にアクセス可能なオープンソースのデータセットのみに依存していることだ。
ASR、TS、音声言語モデリング、音声質問応答ベンチマークの総合的な評価は、MoSTが既存のパラメータ数モデルよりも一貫して優れていることを示している。
我々のアブレーション研究は、モダリティ固有のルーティング機構と共有専門家設計が、テストされたすべてのドメインのパフォーマンス向上に大きく貢献することを確認した。
私たちの知る限り、MOSTはMixture of Expertsアーキテクチャ上に構築された最初の完全にオープンソースな音声テキストLLMである。
MoSTモデル、トレーニングコード、推論コード、トレーニングデータをhttps://github.com/NUS-HPC-AI-Lab/MoSTでリリースします。
関連論文リスト
- Wasm: A Pipeline for Constructing Structured Arabic Interleaved Multimodal Corpora [1.7590081165362783]
我々は、新しいアラビアマルチモーダルデータセットを作成するためにCommon Crawlデータセットを処理するパイプラインWasmを提示する。
テキスト抽出のみに焦点を当てた既存のアラビア語コーパスとは異なり、我々のアプローチはウェブコンテンツの構造的整合性を保っている。
既存の主要なデータセットに対して、データ処理パイプラインの包括的な比較分析を提供します。
論文 参考訳(メタデータ) (2025-11-10T13:10:31Z) - MoIIE: Mixture of Intra- and Inter-Modality Experts for Large Vision Language Models [52.876185634349575]
我々は、モダリティ内およびモダリティ間エキスパート(MoIIE)の混合をLVLM(Large Vision-Language Models)に組み込むことを提案する。
それぞれのトークンに対して、専門家のルーティングはそのモダリティによってガイドされ、それぞれのモダリティの専門家と、モダリティ間のエキスパートの共有プールにトークンを指示する。
5.5B と 11.3B の活性化パラメータを持つ MoIIE モデルは,既存のオープンソース MoE-LLM ベースのマルチモーダルモデルの性能に適合するか,さらに上回っている。
論文 参考訳(メタデータ) (2025-08-13T13:00:05Z) - Zipper: A Multi-Tower Decoder Architecture for Fusing Modalities [6.9522425458326635]
独立に訓練された単調デコーダから多モード生成モデルを柔軟に構成するマルチトワーデコーダアーキテクチャを提案する。
提案アーキテクチャは,テキスト音声データに制限のあるシナリオにおいて,非常に競争力のある性能を示す。
出力モダリティが音声であるTTS(text-to-Speech Generation)のようなクロスモーダルなタスクでは、事前訓練された音声バックボーンを使用することで、ベースラインよりも優れたパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2024-05-29T00:23:55Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling [115.56746545958522]
我々は,様々なモーダルの統一処理に離散表現を利用する,任意のマルチモーダル言語モデルであるAnyGPTを紹介する。
我々は、マルチモーダルテキスト中心のデータセットを構築し、マルチモーダルアライメント事前学習を行う。
我々は,AnyGPTが任意のマルチモーダル対話を円滑に行うと同時に,すべてのモダリティにまたがる特化モデルに匹敵する性能を実現することができることを示す。
論文 参考訳(メタデータ) (2024-02-19T15:33:10Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - Cross-Modal Multi-Tasking for Speech-to-Text Translation via Hard
Parameter Sharing [72.56219471145232]
ハードパラメータ共有を伴うST/MTマルチタスクフレームワークを提案する。
本手法は,事前処理による音声文のモダリティギャップを低減する。
我々は,注意エンコーダ・デコーダ,コネクショニスト時間分類(CTC),トランスデューサ,共同CTC/アテンションモデルを平均+0.5BLEUで改善することを示す。
論文 参考訳(メタデータ) (2023-09-27T17:48:14Z) - Jointly Fine-Tuning "BERT-like" Self Supervised Models to Improve
Multimodal Speech Emotion Recognition [9.099532309489996]
共同で調整した"BERTライク"なSSLアーキテクチャが、最新技術(SOTA)の成果をもたらすことを示す。
また、音声とテキストのモダリティを融合させる2つの手法を評価し、単純な融合機構がより複雑な手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-08-15T08:54:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。