論文の概要: Deep Implicit Distribution Alignment Networks for Cross-Corpus Speech
Emotion Recognition
- arxiv url: http://arxiv.org/abs/2302.08921v1
- Date: Fri, 17 Feb 2023 14:51:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-20 14:37:13.953734
- Title: Deep Implicit Distribution Alignment Networks for Cross-Corpus Speech
Emotion Recognition
- Title(参考訳): クロスコーパス音声感情認識のための深部暗黙分布アライメントネットワーク
- Authors: Yan Zhao, Jincen Wang, Yuan Zong, Wenming Zheng, Hailun Lian, Li Zhao
- Abstract要約: 深層暗黙分布アライメントネットワーク(DIDAN)と呼ばれる新しい深層移動学習手法を提案する。
DIDANは、ラベル付きトレーニング(ソース)と未ラベルテスト(ターゲット)の音声信号が異なるコーパスから来る、クロスコーパス音声の感情認識問題を扱う。
提案したDIDANを評価するために,広範に使用されている音声感情コーパスに対する広範囲なクロスコーパスSER実験を行った。
- 参考スコア(独自算出の注目度): 19.281716812246557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel deep transfer learning method called deep
implicit distribution alignment networks (DIDAN) to deal with cross-corpus
speech emotion recognition (SER) problem, in which the labeled training
(source) and unlabeled testing (target) speech signals come from different
corpora. Specifically, DIDAN first adopts a simple deep regression network
consisting of a set of convolutional and fully connected layers to directly
regress the source speech spectrums into the emotional labels such that the
proposed DIDAN can own the emotion discriminative ability. Then, such ability
is transferred to be also applicable to the target speech samples regardless of
corpus variance by resorting to a well-designed regularization term called
implicit distribution alignment (IDA). Unlike widely-used maximum mean
discrepancy (MMD) and its variants, the proposed IDA absorbs the idea of sample
reconstruction to implicitly align the distribution gap, which enables DIDAN to
learn both emotion discriminative and corpus invariant features from speech
spectrums. To evaluate the proposed DIDAN, extensive cross-corpus SER
experiments on widely-used speech emotion corpora are carried out. Experimental
results show that the proposed DIDAN can outperform lots of recent
state-of-the-art methods in coping with the cross-corpus SER tasks.
- Abstract(参考訳): 本稿では,異なるコーパスからラベル付き学習(ソース)とラベルなしテスト(ターゲット)の音声信号が出力されるクロスコーパス音声感情認識(ser)問題に対処するために,深部暗黙分布アライメントネットワーク(didan)と呼ばれる新しい深部伝達学習法を提案する。
具体的には、DIDANはまず、一連の畳み込み層と完全に連結された層からなる単純な深層回帰ネットワークを採用し、元の音声スペクトルを直接感情ラベルに回帰させ、提案したDIDANが感情識別能力を所有できるようにする。
次に、暗黙的分布アライメント(IDA)と呼ばれるよく設計された正規化項に頼って、コーパスのばらつきにかかわらず、対象の音声サンプルにもそのような能力が適用される。
広範に使用されている最大平均差分率(MMD)とその変種とは異なり,提案したIDAはサンプル再構成のアイデアを吸収して分布ギャップを暗黙的に整列させ,DIDANは音声スペクトルから感情判別とコーパス不変の特徴を学習することができる。
提案したDIDANを評価するために,広く使用されている音声感情コーパスに対する広範囲なSER実験を行った。
実験結果から,提案したDIDANは, クロスコーパスSERタスクに対処する上で, 最近の最先端手法よりも優れていることがわかった。
関連論文リスト
- Tackling Ambiguity from Perspective of Uncertainty Inference and Affinity Diversification for Weakly Supervised Semantic Segmentation [12.308473939796945]
画像レベルのラベルを持つ弱教師付きセマンティックセマンティックセグメンテーション(WSSS)は、退屈なアノテーションを使わずに高密度なタスクを実現することを目的としている。
WSSSの性能、特にクラス活性化マップ(CAM)の生成と擬似マスクの精製の段階では、あいまいさに悩まされている。
統一された単一ステージWSSSフレームワークであるUniAを提案し、不確実性推論と親和性多様化の観点からこの問題に対処する。
論文 参考訳(メタデータ) (2024-04-12T01:54:59Z) - Likelihood-Aware Semantic Alignment for Full-Spectrum
Out-of-Distribution Detection [24.145060992747077]
画像とテキストの対応を意味的に高次領域に促進する「Likelihood-Aware Semantic Alignment (LSA)フレームワーク」を提案する。
2つのF-OODベンチマークで15.26%$と18.88%$の差で既存の手法を上回り、提案したLSAの優れたOOD検出性能を実証した。
論文 参考訳(メタデータ) (2023-12-04T08:53:59Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Emo-DNA: Emotion Decoupling and Alignment Learning for Cross-Corpus
Speech Emotion Recognition [16.159171586384023]
クロスコーパス音声感情認識(SER)は、よくラベルされたコーパスからラベルのない音声感情を推測する能力を一般化しようとする。
既存の手法は、典型的には教師なし領域適応(UDA)に基づいており、グローバルな分布アライメントによってコーパス不変の特徴を学ぶのに苦労している。
クロスコーパスSERのための新しい感情デカップリングaNdアライメント学習フレームワーク(EMO-DNA)を提案する。
論文 参考訳(メタデータ) (2023-08-04T08:15:17Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Single-channel speech separation using Soft-minimum Permutation
Invariant Training [60.99112031408449]
教師付き音声分離における長寿命問題は、それぞれの分離された音声信号の正しいラベルを見つけることである。
Permutation Invariant Training (PIT) はラベルあいまいさ問題に対処する上で有望な解決策であることが示されている。
そこで本研究では,PITの不効率に対処する確率的最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-16T17:25:05Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z) - Dive into Ambiguity: Latent Distribution Mining and Pairwise Uncertainty
Estimation for Facial Expression Recognition [59.52434325897716]
DMUE(DMUE)という,アノテーションのあいまいさを2つの視点から解決するソリューションを提案する。
前者に対しては,ラベル空間における潜伏分布をよりよく記述するために,補助的マルチブランチ学習フレームワークを導入する。
後者の場合、インスタンス間の意味的特徴のペアワイズ関係を完全に活用して、インスタンス空間のあいまいさの程度を推定する。
論文 参考訳(メタデータ) (2021-04-01T03:21:57Z) - Unsupervised Cross-Lingual Speech Emotion Recognition Using
DomainAdversarial Neural Network [48.1535353007371]
SER(Cross-domain Speech Emotion Recog-nition)は、ソースとターゲットドメイン間の分散シフトによる課題である。
本論文では,この分散シフトを緩和するためのDANN(Domain Adversarial Neural Network)ベースのアプローチを提案する。
論文 参考訳(メタデータ) (2020-12-21T08:21:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。