論文の概要: Improving Speaker-independent Speech Emotion Recognition Using Dynamic
Joint Distribution Adaptation
- arxiv url: http://arxiv.org/abs/2401.09752v1
- Date: Thu, 18 Jan 2024 06:52:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 17:45:56.135471
- Title: Improving Speaker-independent Speech Emotion Recognition Using Dynamic
Joint Distribution Adaptation
- Title(参考訳): 動的関節分布適応を用いた話者独立音声認識の改良
- Authors: Cheng Lu, Yuan Zong, Hailun Lian, Yan Zhao, Bj\"orn Schuller, and
Wenming Zheng
- Abstract要約: 話者に依存しない音声感情認識では、様々な話者からトレーニングとテストサンプルが収集される。
トレーニングされたモデルが新しい話者のデータに直面すると、その性能は低下する傾向にある。
マルチソースドメイン適応の枠組みに基づく動的共同分散適応法(DJDA)を提案する。
- 参考スコア(独自算出の注目度): 15.64999039870125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In speaker-independent speech emotion recognition, the training and testing
samples are collected from diverse speakers, leading to a multi-domain shift
challenge across the feature distributions of data from different speakers.
Consequently, when the trained model is confronted with data from new speakers,
its performance tends to degrade. To address the issue, we propose a Dynamic
Joint Distribution Adaptation (DJDA) method under the framework of multi-source
domain adaptation. DJDA firstly utilizes joint distribution adaptation (JDA),
involving marginal distribution adaptation (MDA) and conditional distribution
adaptation (CDA), to more precisely measure the multi-domain distribution
shifts caused by different speakers. This helps eliminate speaker bias in
emotion features, allowing for learning discriminative and speaker-invariant
speech emotion features from coarse-level to fine-level. Furthermore, we
quantify the adaptation contributions of MDA and CDA within JDA by using a
dynamic balance factor based on $\mathcal{A}$-Distance, promoting to
effectively handle the unknown distributions encountered in data from new
speakers. Experimental results demonstrate the superior performance of our DJDA
as compared to other state-of-the-art (SOTA) methods.
- Abstract(参考訳): 話者に依存しない音声感情認識では、トレーニングとテストサンプルは多様な話者から収集され、異なる話者からのデータの特徴分布にまたがるマルチドメインシフトの課題につながる。
その結果、トレーニングされたモデルが新しい話者のデータに直面すると、その性能は低下する傾向にある。
この問題に対処するため,マルチソースドメイン適応の枠組みに基づく動的共同分散適応法(DJDA)を提案する。
DJDAは、まず、境界分布適応(MDA)と条件分布適応(CDA)を含む関節分布適応(JDA)を利用し、異なる話者によるマルチドメイン分布シフトをより正確に測定する。
これにより、感情特徴の話者バイアスを排除し、識別的および話者不変の音声感情特徴を粗いレベルから細かいレベルに学習することができる。
さらに、$\mathcal{A}$-Distanceに基づく動的バランス係数を用いて、JDA内のMDAおよびCDAの適応寄与を定量化し、新しい話者のデータから発生する未知の分布を効果的に扱うことを促進した。
実験により,他のSOTA法と比較して,DJDAの優れた性能が示された。
関連論文リスト
- DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - IDA: Informed Domain Adaptive Semantic Segmentation [51.12107564372869]
クラスレベルのセグメンテーション性能に基づいてデータを混合する自己学習フレームワークであるDomain Informed Adaptation (IDA) モデルを提案する。
IDAモデルでは、クラスレベルの性能を期待信頼スコア(ECS)によって追跡し、動的スケジュールを用いて異なる領域のデータに対する混合比を決定する。
提案手法は,GTA-Vの都市景観への適応において1.1 mIoU,SynTHIAの都市への適応において0.9 mIoUのマージンで,最先端のUDA-SS法よりも優れる。
論文 参考訳(メタデータ) (2023-03-05T18:16:34Z) - A Comparative Study on Speaker-attributed Automatic Speech Recognition
in Multi-party Meetings [53.120885867427305]
会議シナリオにおける話者分散自動音声認識(SA-ASR)の3つのアプローチを評価する。
WD-SOT法は平均話者依存文字誤り率(SD-CER)を10.7%削減する
TS-ASRアプローチはFD-SOTアプローチよりも優れ、16.5%の相対的なSD-CER削減をもたらす。
論文 参考訳(メタデータ) (2022-03-31T06:39:14Z) - On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and
Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。
本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T09:12:24Z) - Interpretable Dysarthric Speaker Adaptation based on Optimal-Transport [3.903766260291157]
コマンド音声認識における話者適応(SA)に着目し,複数の情報源からのデータを利用できる。
最適トランスポートに基づく教師なしマルチソースドメイン適応(MSDA)アルゴリズムを提案する。
話者非依存モデルに対して,コマンド誤り率を相対的に16%, 7%削減し, 最適な競合手法を提案する。
論文 参考訳(メタデータ) (2022-03-14T14:39:00Z) - Bures Joint Distribution Alignment with Dynamic Margin for Unsupervised
Domain Adaptation [17.06364218327213]
非教師なしドメイン適応(Unsupervised domain adapt, UDA)は、トランスファーラーニングにおける顕著なタスクの1つである。
本稿では,共同分布間のカーネル・ブレス=ヴァッサーシュタイン距離を最小化するアライメント損失項を提案する。
実験により、BJDAは、ほとんどの実験環境で最先端のアルゴリズムよりも優れており、UDAタスクに非常に効果的であることが示された。
論文 参考訳(メタデータ) (2022-03-14T03:20:01Z) - Optimal Transport-based Adaptation in Dysarthric Speech Tasks [6.609497621455247]
音声データにおいて、ミスマッチの原因は異なる音響環境や話者特性を含む。
MSDA-WDJOT(Meighted Joint Optimal Transport)を用いた最適な輸送手法を提案する。
MSDA-WJDOTは、コマンド音声認識における発話器適応に用いる。
論文 参考訳(メタデータ) (2021-04-06T14:26:34Z) - Bayesian Learning for Deep Neural Network Adaptation [73.74387489237012]
音声認識システムにおける重要な課題は、トレーニングと評価データのミスマッチを減らすことである。
モデルに基づく話者適応アプローチは、しばしば十分な量のターゲット話者データを必要とする。
話者レベルのデータが限られていると、話者適応は過剰フィットし、一般化が悪くなります。
論文 参考訳(メタデータ) (2020-12-14T12:30:41Z) - DEAAN: Disentangled Embedding and Adversarial Adaptation Network for
Robust Speaker Representation Learning [69.70594547377283]
話者関連およびドメイン固有の特徴を解き放つための新しいフレームワークを提案する。
我々のフレームワークは、より話者差別的でドメイン不変な話者表現を効果的に生成できる。
論文 参考訳(メタデータ) (2020-12-12T19:46:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。