論文の概要: UniMoE-Audio: Unified Speech and Music Generation with Dynamic-Capacity MoE
- arxiv url: http://arxiv.org/abs/2510.13344v1
- Date: Wed, 15 Oct 2025 09:30:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.59749
- Title: UniMoE-Audio: Unified Speech and Music Generation with Dynamic-Capacity MoE
- Title(参考訳): UniMoE-Audio:動的容量MOEを用いた統一音声と音楽生成
- Authors: Zhenyu Liu, Yunxin Li, Xuanyu Zhang, Qixun Teng, Shenyuan Jiang, Xinyu Chen, Haoyuan Shi, Jinchao Li, Qi Wang, Haolan Chen, Fanbo Meng, Mingjun Zhao, Yu Xu, Yancheng He, Baotian Hu, Min Zhang,
- Abstract要約: UniMoE-Audioは、新しいDynamic-Capacity Mixture-of-Experts (MoE)フレームワークにおける統一された音声および音楽生成モデルである。
データ不均衡に対処するために,3段階の研修カリキュラムを導入する。
UniMoE-Audioは、主要な音声および音楽生成ベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 48.211103577288675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in unified multimodal models indicate a clear trend towards comprehensive content generation. However, the auditory domain remains a significant challenge, with music and speech often developed in isolation, hindering progress towards universal audio synthesis. This separation stems from inherent task conflicts and severe data imbalances, which impede the development of a truly unified audio generation model. To address this challenge, we propose UniMoE-Audio, a unified speech and music generation model within a novel Dynamic-Capacity Mixture-of-Experts (MoE) framework. Architecturally, UniMoE-Audio introduces a Top-P routing strategy for dynamic expert number allocation, and a hybrid expert design comprising routed experts for domain-specific knowledge, shared experts for domain-agnostic features, and null experts for adaptive computation skipping. To tackle data imbalance, we introduce a three-stage training curriculum: 1) Independent Specialist Training leverages original datasets to instill domain-specific knowledge into each "proto-expert" without interference; 2) MoE Integration and Warmup incorporates these specialists into the UniMoE-Audio architecture, warming up the gate module and shared expert using a subset of balanced dataset; and 3) Synergistic Joint Training trains the entire model end-to-end on the fully balanced dataset, fostering enhanced cross-domain synergy. Extensive experiments show that UniMoE-Audio not only achieves state-of-the-art performance on major speech and music generation benchmarks, but also demonstrates superior synergistic learning, mitigating the performance degradation typically seen in naive joint training. Our findings highlight the substantial potential of specialized MoE architecture and curated training strategies in advancing the field of universal audio generation. Homepage: https://mukioxun.github.io/Uni-MoE-site/home.html
- Abstract(参考訳): 統合マルチモーダルモデルの最近の進歩は、包括的コンテンツ生成への明確な傾向を示している。
しかし、聴覚領域は依然として重要な課題であり、音楽と音声はしばしば独立して発達し、普遍的な音声合成への進歩を妨げる。
この分離は、真に統一されたオーディオ生成モデルの開発を妨げる、固有のタスクコンフリクトと厳しいデータ不均衡に起因する。
この課題に対処するために,新しいダイナミック・キャパシティ・ミックス・オブ・エクササイズ(MoE)フレームワークにおいて,統一された音声・音楽生成モデルであるUniMoE-Audioを提案する。
アーキテクチャ的には、UniMoE-Audioは動的専門家数割り当てのためのTop-Pルーティング戦略と、ドメイン固有の知識に関するルーティング専門家、ドメインに依存しない機能の共有専門家、適応的な計算スキップのためのnullエキスパートで構成されるハイブリッドエキスパート設計を導入している。
データ不均衡に取り組むために,3段階の研修カリキュラムを導入する。
1)独立専門医養成は、元のデータセットを活用して、ドメイン固有の知識を干渉なく各「プロトエキスパート」に注入する。
2) MoE 統合と Warmup は、これらの専門家を UniMoE-Audio アーキテクチャに組み入れ、ゲートモジュールをウォームアップし、バランスの取れたデータセットのサブセットを使用して専門家を共有する。
3) シナジスティック・ジョイント・トレーニングは、完全なバランスの取れたデータセット上で、モデル全体をエンドツーエンドにトレーニングし、拡張されたクロスドメイン・シナジーを育む。
広汎な実験により、UniMoE-Audioは、主要な音声および音楽生成ベンチマークで最先端のパフォーマンスを達成するだけでなく、より優れた相乗的学習を示し、ナイーブな関節トレーニングで見られるパフォーマンス劣化を軽減している。
本研究は, ユニバーサル音声生成の分野を推し進める上で, 特殊なMoEアーキテクチャと訓練戦略の有意義な可能性を明らかにするものである。
ホームページ:https://mukioxun.github.io/Uni-MoE-site/home.html
関連論文リスト
- MOVA: Towards Scalable and Synchronized Video-Audio Generation [91.56945636522345]
高品質で同期した映像コンテンツを生成できるオープンソースモデルMOVA(MOSS Video and Audio)を紹介する。
モデルウェイトとコードをリリースすることによって、研究を進め、クリエーターの活気あるコミュニティを育むことを目指しています。
論文 参考訳(メタデータ) (2026-02-09T15:31:54Z) - ERNIE 5.0 Technical Report [244.36480708815316]
ERNIE 5.0は、テキスト、画像、ビデオ、オーディオをまたいだ統合されたマルチモーダル理解と生成のための統合された自己回帰基盤モデルである。
ERNIE 5.0は、多様なリソース制約下での大規模デプロイメントの実践的な課題に対処するため、新しい弾力性トレーニングパラダイムを採用している。
ERNIE 5.0は、複数のモードで強い、バランスの取れた性能を実現する。
論文 参考訳(メタデータ) (2026-02-04T16:18:15Z) - MoST: Mixing Speech and Text with Modality-Aware Mixture of Experts [12.42628977620548]
MoST(Mixture of Speech and Text)は、音声処理とテキスト処理をシームレスに統合する新しい大規模言語モデルである。
入力型に基づいて、モダリティに適した専門家にトークンを指示する特殊な経路を導入する。
MoSTは、パラメータ数に匹敵する既存のモデルよりも一貫して優れています。
論文 参考訳(メタデータ) (2026-01-15T10:43:29Z) - MoE Adapter for Large Audio Language Models: Sparsity, Disentanglement, and Gradient-Conflict-Free [27.346096262060787]
音響情報の分離を目的とした疎混合(MoE)アーキテクチャであるtextittextbfMoE-Adapter を導入する。
実験により、MoE-Adapterは、音声意味的タスクとパラ言語的タスクの両方において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2026-01-06T12:24:38Z) - SAM Audio: Segment Anything in Audio [55.50609519820557]
一般的なオーディオソース分離は、マルチモーダルAIシステムにとって重要な機能である。
本稿では,一般的な音声分離のための基礎モデルであるSAM Audioを紹介する。
テキスト、ビジュアル、タイムスパンを単一のフレームワーク内で統合する。
論文 参考訳(メタデータ) (2025-12-19T22:14:23Z) - Beyond Benchmarks: Understanding Mixture-of-Experts Models through Internal Mechanisms [55.1784306456972]
Mixture-of-Experts (MoE)アーキテクチャは、推論中にパラメータのサブセットだけをアクティベートすることで、効率とスケーラビリティを提供する、有望な方向性として登場した。
内部メトリックを用いて、ルーティング機構を明示的に取り入れ、専門家レベルの振る舞いを分析することで、MoEアーキテクチャのメカニズムを解明する。
その結果,(1)モデルの発展に伴ってニューロンの利用が減少し,より高度な一般化が期待できる,(2)ベンチマークのパフォーマンスが限られた信号のみを提供するダイナミックな軌道を示す,(3)複数の専門家の協力的貢献からタスク完了が生じる,(4)ニューロンレベルでの活性化パターンがデータ多様性のきめ細かいプロキシを提供する,といった結果が得られた。
論文 参考訳(メタデータ) (2025-09-28T15:13:38Z) - Symphony-MoE: Harmonizing Disparate Pre-trained Models into a Coherent Mixture-of-Experts [18.18231276284727]
Mixture-of-Experts (MoE)モデルは、大きなパラメータセットをわずかに活性化することにより、スケーラブルなパフォーマンスを実現する。
近年の作業では、フィードフォワードネットワーク(FFN)層を専門家に複製することで、トレーニング済みの高密度モデル1つを再利用している。
本稿では、複数の同一構造を持つ異なる事前学習モデルから得られたエキスパートを用いて、強力なMoEモデルを構築することにより、この制限に対処する。
論文 参考訳(メタデータ) (2025-09-23T02:07:14Z) - MambAttention: Mamba with Multi-Head Attention for Generalizable Single-Channel Speech Enhancement [26.526517674876086]
本稿では,Mambaと時間・周波数・マルチヘッドアテンションモジュールを組み合わせた新しいハイブリッドアーキテクチャMambAttentionを提案する。
提案するMambAttentionモデルは,既存の最先端LSTM-, xLSTM-, Mamba-, Conformerベースのシステムよりも優れている。
論文 参考訳(メタデータ) (2025-07-01T17:16:05Z) - Echotune: A Modular Extractor Leveraging the Variable-Length Nature of Speech in ASR Tasks [4.132793413136553]
可変長アテンション機構を備えたピンブルモジュールであるEcho-MSAを紹介する。
提案した設計は,音声の可変長の特徴を捉え,固定長注意の限界に対処する。
論文 参考訳(メタデータ) (2023-09-14T14:51:51Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。