論文の概要: DSNet: Disentangled Siamese Network with Neutral Calibration for Speech
Emotion Recognition
- arxiv url: http://arxiv.org/abs/2312.15593v1
- Date: Mon, 25 Dec 2023 02:58:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 17:29:02.996102
- Title: DSNet: Disentangled Siamese Network with Neutral Calibration for Speech
Emotion Recognition
- Title(参考訳): dsnet:ニュートラルキャリブレーションによる音声感情認識のための不連続siameseネットワーク
- Authors: Chengxin Chen, Pengyuan Zhang
- Abstract要約: 我々は、より堅牢で説明可能な音声感情認識モデルの需要を満たすために、中立キャリブレーションを備えたディケンタングル・シームズ・ネットワークであるDSNetを提案する。
2つの人気のあるベンチマークデータセットの実験結果は、話者非依存SERの様々な最先端手法よりもDSNetの方が優れていることを示す。
- 参考スコア(独自算出の注目度): 35.15390769958969
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One persistent challenge in deep learning based speech emotion recognition
(SER) is the unconscious encoding of emotion-irrelevant factors (e.g., speaker
or phonetic variability), which limits the generalization of SER in practical
use. In this paper, we propose DSNet, a Disentangled Siamese Network with
neutral calibration, to meet the demand for a more robust and explainable SER
model. Specifically, we introduce an orthogonal feature disentanglement module
to explicitly project the high-level representation into two distinct
subspaces. Later, we propose a novel neutral calibration mechanism to encourage
one subspace to capture sufficient emotion-irrelevant information. In this way,
the other one can better isolate and emphasize the emotion-relevant information
within speech signals. Experimental results on two popular benchmark datasets
demonstrate the superiority of DSNet over various state-of-the-art methods for
speaker-independent SER.
- Abstract(参考訳): 深層学習に基づく音声感情認識(SER)における永続的な課題の1つは、感情非関連因子(例えば、話者や音声の変動)を無意識に符号化することである。
本稿では,よりロバストで説明可能なserモデルの要求を満たすために,中性キャリブレーションを備えた不連続なシャムネットワークであるdsnetを提案する。
具体的には、高次表現を2つの異なる部分空間に明示的に投影する直交的特徴分散モジュールを導入する。
その後,一つの部分空間に十分な感情非関連情報を捕捉するよう促す新しい中性キャリブレーション機構を提案する。
このようにして、他方は音声信号内の感情関連情報を分離し強調することができる。
2つの人気のあるベンチマークデータセットの実験結果は、話者非依存SERの様々な最先端手法よりもDSNetの方が優れていることを示す。
関連論文リスト
- Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - MSAC: Multiple Speech Attribute Control Method for Reliable Speech Emotion Recognition [7.81011775615268]
シングルコーパスとクロスコーパスSERの両方を同時に処理できる新しい統合SERフレームワークであるMSAC-SERNetを紹介する。
様々な音声属性間の情報重なりを考慮し、異なる音声属性の相関に基づく新しい学習パラダイムを提案する。
シングルコーパスSERシナリオとクロスコーパスSERシナリオの両方の実験は、MSAC-SERNetが最先端SERアプローチと比較して優れた性能を発揮することを示している。
論文 参考訳(メタデータ) (2023-08-08T03:43:24Z) - Disentangling Prosody Representations with Unsupervised Speech
Reconstruction [22.873286925385543]
本研究の目的は、教師なし再構成に基づく音声からの感情的韻律のゆがみに対処することである。
具体的には,提案した音声再構成モデルProsody2Vecの3つの重要なコンポーネントを同定し,設計し,実装し,統合する。
まず, 感情的コーパスのProsody2Vec表現を事前訓練し, 特定のデータセットのモデルを微調整し, 音声感情認識(SER)と感情音声変換(EVC)タスクを実行する。
論文 参考訳(メタデータ) (2022-12-14T01:37:35Z) - GM-TCNet: Gated Multi-scale Temporal Convolutional Network using Emotion
Causality for Speech Emotion Recognition [14.700043991797537]
本稿では,新しい感情的因果表現学習コンポーネントを構築するために,GM-TCNet(Gated Multi-scale Temporal Convolutional Network)を提案する。
GM-TCNetは、時間領域全体の感情のダイナミクスを捉えるために、新しい感情因果表現学習コンポーネントをデプロイする。
我々のモデルは、最先端技術と比較して、ほとんどのケースで最高の性能を維持している。
論文 参考訳(メタデータ) (2022-10-28T02:00:40Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Decoupling Speaker-Independent Emotions for Voice Conversion Via
Source-Filter Networks [14.55242023708204]
本研究では,話者に依存しない感情特徴の適切なフィルタリングを実現するために,ソースフィルタに基づく感情VCモデル(SFEVC)を提案する。
我々のSFEVCモデルはマルチチャネルエンコーダと感情分離エンコーダと1つのデコーダで構成されている。
論文 参考訳(メタデータ) (2021-10-04T03:14:48Z) - Efficient Speech Emotion Recognition Using Multi-Scale CNN and Attention [2.8017924048352576]
本稿では,音声からの音響情報と語彙情報の両方を利用する,シンプルで効率的なニューラルネットワークアーキテクチャを提案する。
マルチスケール・コンボリューション・レイヤ(MSCNN)を用いて音声とテキストのハイドデン表現を得る手法を提案する。
大規模な実験により,提案手法はIEMOCAPdataset上で従来の最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-06-08T06:45:42Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z) - VAW-GAN for Disentanglement and Recomposition of Emotional Elements in
Speech [91.92456020841438]
変分自己符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)による音声の感情要素のアンタングル化と再分解について検討する。
本稿では,2つのVAW-GANパイプライン,1つはスペクトル変換,もう1つは韻律変換を含む話者依存型ECVフレームワークを提案する。
提案手法の有効性を客観評価と主観評価の両方で検証した。
論文 参考訳(メタデータ) (2020-11-03T08:49:33Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。