論文の概要: MoE Adapter for Large Audio Language Models: Sparsity, Disentanglement, and Gradient-Conflict-Free
- arxiv url: http://arxiv.org/abs/2601.02967v1
- Date: Tue, 06 Jan 2026 12:24:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.922309
- Title: MoE Adapter for Large Audio Language Models: Sparsity, Disentanglement, and Gradient-Conflict-Free
- Title(参考訳): 大規模オーディオ言語モデルのためのMoEアダプタ:スパーシリティ、アンタングルメント、グラディエント・コンフリクトフリー
- Authors: Yishu Lei, Shuwei He, Jing Hu, Dan Zhang, Xianlong Luo, Danxiang Zhu, Shikun Feng, Rui Liu, Jingzhou He, Yu Sun, Hua Wu, Haifeng Wang,
- Abstract要約: 音響情報の分離を目的とした疎混合(MoE)アーキテクチャであるtextittextbfMoE-Adapter を導入する。
実験により、MoE-Adapterは、音声意味的タスクとパラ言語的タスクの両方において優れた性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 27.346096262060787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extending the input modality of Large Language Models~(LLMs) to the audio domain is essential for achieving comprehensive multimodal perception. However, it is well-known that acoustic information is intrinsically \textit{heterogeneous}, entangling attributes such as speech, music, and environmental context. Existing research is limited to a dense, parameter-shared adapter to model these diverse patterns, which induces \textit{gradient conflict} during optimization, as parameter updates required for distinct attributes contradict each other. To address this limitation, we introduce the \textit{\textbf{MoE-Adapter}}, a sparse Mixture-of-Experts~(MoE) architecture designed to decouple acoustic information. Specifically, it employs a dynamic gating mechanism that routes audio tokens to specialized experts capturing complementary feature subspaces while retaining shared experts for global context, thereby mitigating gradient conflicts and enabling fine-grained feature learning. Comprehensive experiments show that the MoE-Adapter achieves superior performance on both audio semantic and paralinguistic tasks, consistently outperforming dense linear baselines with comparable computational costs. Furthermore, we will release the related code and models to facilitate future research.
- Abstract(参考訳): 大規模言語モデル~(LLM)の入力モダリティを音声領域に拡張することは、包括的なマルチモーダル知覚を実現する上で不可欠である。
しかし、音響情報は本質的には「textit{heterogeneous}」であり、音声、音楽、環境コンテキストなどの属性を絡み合わせることはよく知られている。
既存の研究は、これらの多様なパターンをモデル化するための密度の高いパラメータ共有アダプタに限られており、異なる属性に要求されるパラメータ更新が互いに矛盾するため、最適化中に \textit{gradient conflict} を誘導する。
この制限に対処するために、音響情報を分離するために設計された疎密なMixture-of-Experts~(MoE)アーキテクチャである \textit{\textbf{MoE-Adapter}} を導入する。
具体的には、グローバルコンテキストの共有専門家を維持しながら、補完的な特徴部分空間をキャプチャする専門の専門家に音声トークンをルーティングする動的ゲーティング機構を使用して、グラデーションコンフリクトを緩和し、きめ細かい特徴学習を可能にする。
包括的実験により、MoE-Adapterは、音声意味論的タスクとパラ言語的タスクの両方において優れた性能を達成し、計算コストに匹敵する密度の高い線形ベースラインを一貫して上回ることを示した。
さらに、今後の研究を促進するための関連コードとモデルもリリースします。
関連論文リスト
- UniMoE-Audio: Unified Speech and Music Generation with Dynamic-Capacity MoE [48.211103577288675]
UniMoE-Audioは、新しいDynamic-Capacity Mixture-of-Experts (MoE)フレームワークにおける統一された音声および音楽生成モデルである。
データ不均衡に対処するために,3段階の研修カリキュラムを導入する。
UniMoE-Audioは、主要な音声および音楽生成ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-10-15T09:30:25Z) - BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration [56.98981194478512]
本稿では,幅広いテーマ・ツー・ビデオシナリオを扱う統一フレームワークを提案する。
MLLM-DiTフレームワークは,事前訓練されたマルチモーダルな大規模言語モデルで,基底エンティティに対して深い相互モーダル推論を行う。
OpenS2Vベンチマークの実験により、本手法は、生成ビデオにおける主観的整合性、自然性、テキスト関連性において優れた性能を実現することを示した。
論文 参考訳(メタデータ) (2025-10-01T02:41:11Z) - UniMMAD: Unified Multi-Modal and Multi-Class Anomaly Detection via MoE-Driven Feature Decompression [74.0893986012049]
UniMMADは、マルチモーダルおよびマルチクラスの異常検出のための統一されたフレームワークである。
UniMMADは、9つの異常検出データセット上で、3つのフィールド、12のモダリティ、66のクラスにまたがる最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-30T08:29:12Z) - HarmoniFuse: A Component-Selective and Prompt-Adaptive Framework for Multi-Task Speech Language Modeling [52.537908557508324]
HarmoniFuseは、マルチタスク音声言語モデリングのためのコンポーネント選択およびプロンプト適応フレームワークである。
バッチインターリーブのトレーニング戦略により、ジョイントアノテーションを必要とせずに、別々のASRとSERデータセットを活用することができる。
論文 参考訳(メタデータ) (2025-09-23T02:53:38Z) - Text-Queried Audio Source Separation via Hierarchical Modeling [53.94434504259829]
本研究では,HSM-TSSという階層的分解フレームワークを提案し,そのタスクをグローバルな意味誘導特徴分離と構造保存音響再構成に分解する。
Q-Audioアーキテクチャは、事前訓練されたグローバルセマンティックエンコーダとして機能するオーディオとテキストのモダリティを調整するために使用される。
本手法は,複雑な聴覚シーンにおけるクエリとのセマンティック一貫性を保ちながら,データ効率のトレーニングによる最先端の分離性能を実現する。
論文 参考訳(メタデータ) (2025-05-27T11:00:38Z) - Spatial-Temporal-Spectral Unified Modeling for Remote Sensing Dense Prediction [20.1863553357121]
リモートセンシングのための現在のディープラーニングアーキテクチャは、基本的に堅固である。
本稿では,統合モデリングのための空間時間スペクトル統一ネットワーク(STSUN)について紹介する。
STSUNは任意の空間サイズ、時間長、スペクトル帯域で入力および出力データに適応することができる。
様々な密集した予測タスクと多様な意味クラス予測を統一する。
論文 参考訳(メタデータ) (2025-05-18T07:39:17Z) - SEAL: Speech Embedding Alignment Learning for Speech Large Language Model with Retrieval-Augmented Generation [10.828717295018123]
本稿では,中間テキスト表現の必要性を解消する統合埋め込みフレームワークを提案する。
本モデルでは,従来の2段階法に比べて高い精度でパイプライン遅延を50%削減する。
論文 参考訳(メタデータ) (2025-01-26T15:04:02Z) - Echotune: A Modular Extractor Leveraging the Variable-Length Nature of Speech in ASR Tasks [4.132793413136553]
可変長アテンション機構を備えたピンブルモジュールであるEcho-MSAを紹介する。
提案した設計は,音声の可変長の特徴を捉え,固定長注意の限界に対処する。
論文 参考訳(メタデータ) (2023-09-14T14:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。