論文の概要: Multi-Teacher Language-Aware Knowledge Distillation for Multilingual Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2506.08717v1
- Date: Tue, 10 Jun 2025 12:04:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.375776
- Title: Multi-Teacher Language-Aware Knowledge Distillation for Multilingual Speech Emotion Recognition
- Title(参考訳): 多言語音声感情認識のための多言語言語学習知識蒸留
- Authors: Mehedi Hasan Bijoy, Dejan Porjazovski, Tamás Grósz, Mikko Kurimo,
- Abstract要約: 本稿では,SERを英語,フィンランド語,フランス語で前進させる新しい言語対応多教師知識蒸留法を提案する。
学生モデルは、英語データセットの72.9の重み付きリコールとフィンランドデータセットの63.4の非重み付きリコールと、最先端のパフォーマンスを示す。
我々の手法は、悲しみや中立的な感情に対するリコールの改善に優れていますが、それでも怒りや幸福を認識する上での課題に直面しています。
- 参考スコア(独自算出の注目度): 11.035216345897819
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Speech Emotion Recognition (SER) is crucial for improving human-computer interaction. Despite strides in monolingual SER, extending them to build a multilingual system remains challenging. Our goal is to train a single model capable of multilingual SER by distilling knowledge from multiple teacher models. To address this, we introduce a novel language-aware multi-teacher knowledge distillation method to advance SER in English, Finnish, and French. It leverages Wav2Vec2.0 as the foundation of monolingual teacher models and then distills their knowledge into a single multilingual student model. The student model demonstrates state-of-the-art performance, with a weighted recall of 72.9 on the English dataset and an unweighted recall of 63.4 on the Finnish dataset, surpassing fine-tuning and knowledge distillation baselines. Our method excels in improving recall for sad and neutral emotions, although it still faces challenges in recognizing anger and happiness.
- Abstract(参考訳): 音声感情認識(SER)は人間とコンピュータの相互作用を改善するために重要である。
モノリンガルSERの進歩にもかかわらず、それらを多言語システムに拡張することは依然として困難である。
我々の目標は、複数の教師モデルから知識を抽出することで、多言語SERが可能な単一モデルを訓練することである。
そこで我々は,SERを英語,フィンランド語,フランス語で発展させるために,新しい言語対応多教師知識蒸留法を提案する。
Wav2Vec2.0を単言語教師モデルの基盤として利用し、その知識を単一多言語学生モデルに抽出する。
学生モデルは、英語データセットの72.9の重み付きリコールとフィンランドデータセットの63.4の非重み付きリコールで、微調整と知識蒸留のベースラインを超えた、最先端のパフォーマンスを示す。
我々の手法は、悲しみや中立的な感情に対するリコールの改善に優れていますが、それでも怒りや幸福を認識する上での課題に直面しています。
関連論文リスト
- CLARA: Multilingual Contrastive Learning for Audio Representation
Acquisition [5.520654376217889]
CLARAはラベル付きデータへの依存を最小限に抑え、言語間の一般化を強化する。
我々のアプローチは、主観的評価問題を克服し、音声における感情的ニュアンスを十分に捉えている。
低リソース言語に適応し、多言語音声表現学習の進歩を示す。
論文 参考訳(メタデータ) (2023-10-18T09:31:56Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Multilingual Speech Emotion Recognition With Multi-Gating Mechanism and
Neural Architecture Search [15.51730246937201]
SERは、音声をHappy、Angry、Fear、Disgust、Neutralなどの感情カテゴリーに分類する。
本稿では,複数の事前学習された音声モデルから感情情報を抽出する言語特化モデルを提案する。
我々のモデルは、ドイツ語では3%、フランス語では14.3%の精度で最先端の精度を上げる。
論文 参考訳(メタデータ) (2022-10-31T19:55:33Z) - Distilling a Pretrained Language Model to a Multilingual ASR Model [3.4012007729454816]
教師のテキストモデルに埋め込まれた豊富な知識を学生の音声モデルに蒸留する。
我々は,100時間未満の音声データを持つCommonVoiceデータセットの低リソース言語20言語に対して,本手法の優位性を示す。
論文 参考訳(メタデータ) (2022-06-25T12:36:11Z) - Discovering Phonetic Inventories with Crosslingual Automatic Speech
Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。
独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文 参考訳(メタデータ) (2022-01-26T22:12:55Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - Towards Developing a Multilingual and Code-Mixed Visual Question
Answering System by Knowledge Distillation [20.33235443471006]
本稿では,英語ビジョンモデル(教師)を,等しく効果的な多言語・コード混合モデル(学生)に拡張する知識蒸留手法を提案する。
また、大規模な多言語およびコード混合VQAデータセットを11の異なる言語セットアップで作成します。
実験結果と深部分析により,11種類の言語セットアップ上で,事前学習した言語ビジョンモデルに対して提案したVQAモデルの有効性が示された。
論文 参考訳(メタデータ) (2021-09-10T03:47:29Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。