論文の概要: Leveraging Unlabeled Audio-Visual Data in Speech Emotion Recognition using Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2507.00055v1
- Date: Thu, 26 Jun 2025 04:13:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:58.151359
- Title: Leveraging Unlabeled Audio-Visual Data in Speech Emotion Recognition using Knowledge Distillation
- Title(参考訳): 知識蒸留を用いた音声感情認識におけるラベルなし音声画像データの活用
- Authors: Varsha Pendyala, Pedro Morgado, William Sethares,
- Abstract要約: 本稿では,音声感情認識(SER)システムの開発を目的とした,軽量SER(LiSER)と呼ばれる知識蒸留フレームワークを提案する。
LiSERは教師モデルから軽量学生モデルに音声の感情や表情に関する知識を伝達する。
RAVDESSとCREMA-Dという2つのベンチマークデータセットで実施された実験は、LiSERがSERタスクの広範なラベル付きデータセットへの依存を減らすことができることを示した。
- 参考スコア(独自算出の注目度): 6.2443612323631985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Voice interfaces integral to the human-computer interaction systems can benefit from speech emotion recognition (SER) to customize responses based on user emotions. Since humans convey emotions through multi-modal audio-visual cues, developing SER systems using both the modalities is beneficial. However, collecting a vast amount of labeled data for their development is expensive. This paper proposes a knowledge distillation framework called LightweightSER (LiSER) that leverages unlabeled audio-visual data for SER, using large teacher models built on advanced speech and face representation models. LiSER transfers knowledge regarding speech emotions and facial expressions from the teacher models to lightweight student models. Experiments conducted on two benchmark datasets, RAVDESS and CREMA-D, demonstrate that LiSER can reduce the dependence on extensive labeled datasets for SER tasks.
- Abstract(参考訳): ヒューマンコンピュータインタラクションシステムに不可欠な音声インタフェースは、ユーザの感情に基づいて応答をカスタマイズする音声感情認識(SER)の恩恵を受けることができる。
人間はマルチモーダル・オーディオ・ビジュアル・キューを通じて感情を伝達するので、両方のモダリティを用いたSERシステムの開発は有益である。
しかし、その開発のために大量のラベル付きデータを収集するのは高価である。
本稿では,高度な音声モデルと顔表現モデルに基づく大規模教師モデルを用いて,SERの未ラベル音声視覚データを活用する軽量SER (LiSER) と呼ばれる知識蒸留フレームワークを提案する。
LiSERは教師モデルから軽量の学生モデルに音声の感情や表情に関する知識を伝達する。
RAVDESSとCREMA-Dという2つのベンチマークデータセットで実施された実験は、LiSERがSERタスクの広範なラベル付きデータセットへの依存を減らすことができることを示した。
関連論文リスト
- VAEmo: Efficient Representation Learning for Visual-Audio Emotion with Knowledge Injection [50.57849622045192]
本稿では,外部知識注入を用いた感情中心型VA表現学習のための効率的なフレームワークであるVAEmoを提案する。
VAEmoは、コンパクトな設計で最先端のパフォーマンスを実現し、統合されたクロスモーダルエンコーディングと感情認識のセマンティックガイダンスの利点を強調している。
論文 参考訳(メタデータ) (2025-05-05T03:00:51Z) - Contrastive Decoupled Representation Learning and Regularization for Speech-Preserving Facial Expression Manipulation [58.189703277322224]
音声保存表情操作(SPFEM)は、特定の参照感情を表示するために話頭を変更することを目的としている。
参照およびソース入力に存在する感情とコンテンツ情報は、SPFEMモデルに対して直接的かつ正確な監視信号を提供することができる。
コントラスト学習による指導として、コンテンツと感情の事前学習を提案し、分離されたコンテンツと感情表現を学習する。
論文 参考訳(メタデータ) (2025-04-08T04:34:38Z) - Speaker Emotion Recognition: Leveraging Self-Supervised Models for Feature Extraction Using Wav2Vec2 and HuBERT [0.0]
本研究では, 自己教師型トランスフォーマーモデルであるWav2Vec2とHuBERTを用いて, 話者の感情を音声から判断する。
提案手法は、RAVDESS、SHEMO、SAVEE、AESDD、Emo-DBを含む計算可能なデータセットに基づいて評価される。
論文 参考訳(メタデータ) (2024-11-05T10:06:40Z) - BLSP-Emo: Towards Empathetic Large Speech-Language Models [34.62210186235263]
BLSP-Emoは、音声における意味と感情の両方を理解可能なエンドツーエンドの音声言語モデルを開発するための新しいアプローチである。
実験の結果,BLSP-Emoモデルでは,音声の理解と共感応答の伝達が優れていることがわかった。
論文 参考訳(メタデータ) (2024-06-06T09:02:31Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - Versatile audio-visual learning for emotion recognition [28.26077129002198]
本研究では,非モーダル・マルチモーダルシステムを扱うための多目的音声視覚学習フレームワークを提案する。
我々は,この効果的な表現学習を,音声-視覚的共有層,共有層上の残差接続,および非モーダル再構成タスクで実現した。
特に、VAVLは、MSP-IMPROVコーパスの感情予測タスクにおいて、新しい最先端のパフォーマンスを得る。
論文 参考訳(メタデータ) (2023-05-12T03:13:37Z) - Attribute Inference Attack of Speech Emotion Recognition in Federated
Learning Settings [56.93025161787725]
Federated Learning(FL)は、クライアントをコーディネートして、ローカルデータを共有せずにモデルを協調的にトレーニングする分散機械学習パラダイムである。
本稿では,共有勾配やモデルパラメータからクライアントの機密属性情報を推測する属性推論攻撃フレームワークを提案する。
FLを用いて学習したSERシステムに対して,属性推論攻撃が達成可能であることを示す。
論文 参考訳(メタデータ) (2021-12-26T16:50:42Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z) - On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion
Recognition: An Update for the Deep Learning Era [0.0]
3つの現代のASRシステムを適用することで、元のスピーチから転写文を作成します。
音響音声機能の抽出と学習には、openSMILE、openXBoW、DeepSpectrum、auDeepを利用します。
IEMOCAPのスピーカーに依存しない開発およびテストパーティションで、最先端の非重み付き平均リコール値73.6,%$と73.8,%$を達成します。
論文 参考訳(メタデータ) (2021-04-20T17:10:01Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。