論文の概要: Joint Learning using Mixture-of-Expert-Based Representation for Enhanced Speech Generation and Robust Emotion Recognition
- arxiv url: http://arxiv.org/abs/2509.08470v1
- Date: Wed, 10 Sep 2025 10:18:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.38749
- Title: Joint Learning using Mixture-of-Expert-Based Representation for Enhanced Speech Generation and Robust Emotion Recognition
- Title(参考訳): 強調音声生成とロバスト感情認識のためのMixture-of-Expert-based Representationを用いた共同学習
- Authors: Jing-Tong Tzeng, Carlos Busso, Chi-Chun Lee,
- Abstract要約: 音声感情認識(SER)は感情認識音声システム構築において重要な役割を担っているが,その性能は雑音下で著しく低下する。
本稿では, フレームワイド・エキスパート・ルーティングを自己教師付き音声表現に応用した, フレキシブルMTLフレームワークSparse Mixture-of-Experts Representation Integration Technique (Sparse MERIT)を提案する。
MSP-Podcastコーパスの実験では、Sparse MERITはSERとSEの両方のタスクのベースラインモデルより一貫して優れていた。
- 参考スコア(独自算出の注目度): 54.44798086835314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech emotion recognition (SER) plays a critical role in building emotion-aware speech systems, but its performance degrades significantly under noisy conditions. Although speech enhancement (SE) can improve robustness, it often introduces artifacts that obscure emotional cues and adds computational overhead to the pipeline. Multi-task learning (MTL) offers an alternative by jointly optimizing SE and SER tasks. However, conventional shared-backbone models frequently suffer from gradient interference and representational conflicts between tasks. To address these challenges, we propose the Sparse Mixture-of-Experts Representation Integration Technique (Sparse MERIT), a flexible MTL framework that applies frame-wise expert routing over self-supervised speech representations. Sparse MERIT incorporates task-specific gating networks that dynamically select from a shared pool of experts for each frame, enabling parameter-efficient and task-adaptive representation learning. Experiments on the MSP-Podcast corpus show that Sparse MERIT consistently outperforms baseline models on both SER and SE tasks. Under the most challenging condition of -5 dB signal-to-noise ratio (SNR), Sparse MERIT improves SER F1-macro by an average of 12.0% over a baseline relying on a SE pre-processing strategy, and by 3.4% over a naive MTL baseline, with statistical significance on unseen noise conditions. For SE, Sparse MERIT improves segmental SNR (SSNR) by 28.2% over the SE pre-processing baseline and by 20.0% over the naive MTL baseline. These results demonstrate that Sparse MERIT provides robust and generalizable performance for both emotion recognition and enhancement tasks in noisy environments.
- Abstract(参考訳): 音声感情認識(SER)は感情認識音声システム構築において重要な役割を担っているが,その性能は雑音下で著しく低下する。
音声強調(SE)は堅牢性を改善することができるが、しばしば感情的な手がかりを曖昧にし、パイプラインに計算オーバーヘッドを追加するアーティファクトを導入する。
マルチタスク学習(MTL)は、SEタスクとSERタスクを協調的に最適化する代替手段を提供する。
しかし、従来の共有バックボーンモデルは、しばしばタスク間の勾配干渉や表現的衝突に悩まされる。
これらの課題に対処するために,自己教師型音声表現にフレームワイド・エキスパート・ルーティングを適用する柔軟なMTLフレームワークであるSparse Mixture-of-Experts Representation Integration Technique (Sparse MERIT)を提案する。
Sparse MERITにはタスク固有のゲーティングネットワークが組み込まれており、各フレームのエキスパートの共有プールから動的に選択し、パラメータ効率とタスク適応表現学習を可能にする。
MSP-Podcastコーパスの実験では、Sparse MERITはSERとSEの両方のタスクのベースラインモデルより一貫して優れていた。
5dB信号対雑音比(SNR)の最も困難な条件下では、スパースMERITは、SE前処理戦略に依存したベースラインで平均12.0%、単純MTLベースラインで3.4%改善し、目に見えない雑音条件で統計的に重要である。
SEでは、Sparse MERITはSE前処理ベースラインで28.2%、単純MTLベースラインで20.0%改善している。
これらの結果から,Sparse MERITは雑音環境下での感情認識と強化タスクの両方に頑健で一般化可能な性能を提供することが示された。
関連論文リスト
- FLUID: Flow-Latent Unified Integration via Token Distillation for Expert Specialization in Multimodal Learning [1.912429179274357]
token Distillation for Expert Components を用いた textscFLUID-Flow-Latent Unified Integration を提案する。
textscFLUID は,(1) emphQ-transforms, 学習可能なクエリトークン, (2) コントラストアライメントによる相互整合を強制する2段階の融合スキーム, (3) 予測時の軽量でロードバランスのMixture-of-Experts の3要素に寄与する。
論文 参考訳(メタデータ) (2025-08-10T09:34:17Z) - Efficient Redundancy Reduction for Open-Vocabulary Semantic Segmentation [36.46163240168576]
Open-vocabulary semantic segmentation (OVSS)は、任意のテキスト記述によって定義された特定のクラスに画像内の各ピクセルを割り当てることを目的としたオープンワールドタスクである。
大規模視覚言語モデルの最近の進歩は、そのオープン語彙理解能力を示している。
本研究では, 冗長性を効果的に低減し, 精度と効率のバランスをとる新しいフレームワークであるERR-Segを紹介する。
論文 参考訳(メタデータ) (2025-01-29T13:24:53Z) - Diffusion Augmented Retrieval: A Training-Free Approach to Interactive Text-to-Image Retrieval [7.439049772394586]
Diffusion Augmented Retrieval (DAR)は、複数の中間表現を生成するフレームワークである。
DARの結果は微調整されたI-TIRモデルと同等だが、チューニングオーバーヘッドは発生しない。
論文 参考訳(メタデータ) (2025-01-26T03:29:18Z) - Mixture Compressor for Mixture-of-Experts LLMs Gains More [71.0473038084673]
我々は、Mixture-of-Experts Large Language Model (MoE-LLMs) のためのトレーニング不要なMixture-Compressorを提案する。
我々のMCは静的量子化と動的プルーニングを統合し、より少ない精度でMoE-LLMの極端な圧縮を実現する。
例えば、2.54ビットでは、MCは76.6%を圧縮し、平均精度損失は3.8%である。
論文 参考訳(メタデータ) (2024-10-08T18:09:38Z) - BSS-CFFMA: Cross-Domain Feature Fusion and Multi-Attention Speech Enhancement Network based on Self-Supervised Embedding [6.725011823614421]
音声自己教師型学習(SSL)は、複数の下流タスクで最先端(SOTA)のパフォーマンスを達成したことを示す。
本研究では,BSS-CFFMAと呼ばれる新しいクロスドメイン機能融合とマルチアテンション音声強調ネットワークを提案する。
我々はVoiceBank-DEMANDデータセットの比較およびアブレーションによるBSS-CFFMAモデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-08-13T12:27:24Z) - T-REX: Mixture-of-Rank-One-Experts with Semantic-aware Intuition for Multi-task Large Language Model Finetuning [31.276142111455847]
大規模言語モデル(LLM)は多様なマルチタスクの微調整において重要な適応課題に直面している。
我々はmixunderlinetextbfTureunderlinetextbf-of-underlinetextbfRank-onunderlinetextbfE-eunderlinetextbfXper ts (textttT-REX) という新しいフレームワークを設計する。
Rank-1のエキスパートは、ミックス・アンド・マッチのメカニズムにより、線形パラメータのオーバーヘッドを持つエキスパートのベクトル部分空間を2次に拡張し、最適で近似誤差削減を達成することができる。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - Leveraging Modality-specific Representations for Audio-visual Speech
Recognition via Reinforcement Learning [25.743503223389784]
我々は、MSRLと呼ばれる強化学習(RL)ベースのフレームワークを提案する。
タスク固有のメトリクスに直接関連する報酬関数をカスタマイズする。
LRS3データセットによる実験結果から,提案手法は清浄な騒音条件と各種雑音条件の両方で最先端の手法を実現することが示された。
論文 参考訳(メタデータ) (2022-12-10T14:01:54Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。