論文の概要: Improving Speaker-independent Speech Emotion Recognition Using Dynamic
Joint Distribution Adaptation
- arxiv url: http://arxiv.org/abs/2401.09752v1
- Date: Thu, 18 Jan 2024 06:52:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 17:45:56.135471
- Title: Improving Speaker-independent Speech Emotion Recognition Using Dynamic
Joint Distribution Adaptation
- Title(参考訳): 動的関節分布適応を用いた話者独立音声認識の改良
- Authors: Cheng Lu, Yuan Zong, Hailun Lian, Yan Zhao, Bj\"orn Schuller, and
Wenming Zheng
- Abstract要約: 話者に依存しない音声感情認識では、様々な話者からトレーニングとテストサンプルが収集される。
トレーニングされたモデルが新しい話者のデータに直面すると、その性能は低下する傾向にある。
マルチソースドメイン適応の枠組みに基づく動的共同分散適応法(DJDA)を提案する。
- 参考スコア(独自算出の注目度): 15.64999039870125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In speaker-independent speech emotion recognition, the training and testing
samples are collected from diverse speakers, leading to a multi-domain shift
challenge across the feature distributions of data from different speakers.
Consequently, when the trained model is confronted with data from new speakers,
its performance tends to degrade. To address the issue, we propose a Dynamic
Joint Distribution Adaptation (DJDA) method under the framework of multi-source
domain adaptation. DJDA firstly utilizes joint distribution adaptation (JDA),
involving marginal distribution adaptation (MDA) and conditional distribution
adaptation (CDA), to more precisely measure the multi-domain distribution
shifts caused by different speakers. This helps eliminate speaker bias in
emotion features, allowing for learning discriminative and speaker-invariant
speech emotion features from coarse-level to fine-level. Furthermore, we
quantify the adaptation contributions of MDA and CDA within JDA by using a
dynamic balance factor based on $\mathcal{A}$-Distance, promoting to
effectively handle the unknown distributions encountered in data from new
speakers. Experimental results demonstrate the superior performance of our DJDA
as compared to other state-of-the-art (SOTA) methods.
- Abstract(参考訳): 話者に依存しない音声感情認識では、トレーニングとテストサンプルは多様な話者から収集され、異なる話者からのデータの特徴分布にまたがるマルチドメインシフトの課題につながる。
その結果、トレーニングされたモデルが新しい話者のデータに直面すると、その性能は低下する傾向にある。
この問題に対処するため,マルチソースドメイン適応の枠組みに基づく動的共同分散適応法(DJDA)を提案する。
DJDAは、まず、境界分布適応(MDA)と条件分布適応(CDA)を含む関節分布適応(JDA)を利用し、異なる話者によるマルチドメイン分布シフトをより正確に測定する。
これにより、感情特徴の話者バイアスを排除し、識別的および話者不変の音声感情特徴を粗いレベルから細かいレベルに学習することができる。
さらに、$\mathcal{A}$-Distanceに基づく動的バランス係数を用いて、JDA内のMDAおよびCDAの適応寄与を定量化し、新しい話者のデータから発生する未知の分布を効果的に扱うことを促進した。
実験により,他のSOTA法と比較して,DJDAの優れた性能が示された。
関連論文リスト
- Efficient Distribution Matching of Representations via Noise-Injected Deep InfoMax [73.03684002513218]
我々はDeep InfoMax(DIM)を拡張し、学習した表現を選択された事前分布に自動マッチングできるようにする。
このような修正により、一様かつ通常に分散した表現を学習できることを示す。
その結果,下流作業における性能とDMの品質の中間的なトレードオフが示唆された。
論文 参考訳(メタデータ) (2024-10-09T15:40:04Z) - Adversarial Domain Adaptation for Cross-user Activity Recognition Using Diffusion-based Noise-centred Learning [0.0]
HAR(Human Activity Recognition)は、人間とコンピュータの相互作用や医療モニタリングなど、様々な用途において重要な役割を担っている。
本稿では,拡散に基づく雑音中心型適応型適応(Diff-Noise-Adv-DA)という新しいフレームワークを提案する。
生成拡散モデリングと逆学習技術を活用することで,これらの課題に対処する。
論文 参考訳(メタデータ) (2024-08-06T08:55:49Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - A Comparative Study on Speaker-attributed Automatic Speech Recognition
in Multi-party Meetings [53.120885867427305]
会議シナリオにおける話者分散自動音声認識(SA-ASR)の3つのアプローチを評価する。
WD-SOT法は平均話者依存文字誤り率(SD-CER)を10.7%削減する
TS-ASRアプローチはFD-SOTアプローチよりも優れ、16.5%の相対的なSD-CER削減をもたらす。
論文 参考訳(メタデータ) (2022-03-31T06:39:14Z) - On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and
Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。
本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T09:12:24Z) - Interpretable Dysarthric Speaker Adaptation based on Optimal-Transport [3.903766260291157]
コマンド音声認識における話者適応(SA)に着目し,複数の情報源からのデータを利用できる。
最適トランスポートに基づく教師なしマルチソースドメイン適応(MSDA)アルゴリズムを提案する。
話者非依存モデルに対して,コマンド誤り率を相対的に16%, 7%削減し, 最適な競合手法を提案する。
論文 参考訳(メタデータ) (2022-03-14T14:39:00Z) - Bures Joint Distribution Alignment with Dynamic Margin for Unsupervised
Domain Adaptation [17.06364218327213]
非教師なしドメイン適応(Unsupervised domain adapt, UDA)は、トランスファーラーニングにおける顕著なタスクの1つである。
本稿では,共同分布間のカーネル・ブレス=ヴァッサーシュタイン距離を最小化するアライメント損失項を提案する。
実験により、BJDAは、ほとんどの実験環境で最先端のアルゴリズムよりも優れており、UDAタスクに非常に効果的であることが示された。
論文 参考訳(メタデータ) (2022-03-14T03:20:01Z) - Optimal Transport-based Adaptation in Dysarthric Speech Tasks [6.609497621455247]
音声データにおいて、ミスマッチの原因は異なる音響環境や話者特性を含む。
MSDA-WDJOT(Meighted Joint Optimal Transport)を用いた最適な輸送手法を提案する。
MSDA-WJDOTは、コマンド音声認識における発話器適応に用いる。
論文 参考訳(メタデータ) (2021-04-06T14:26:34Z) - Bayesian Learning for Deep Neural Network Adaptation [57.70991105736059]
音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。
モデルに基づく話者適応手法は、ロバスト性を確保するために十分な量のターゲット話者データを必要とすることが多い。
本稿では,話者依存型(SD)パラメータの不確かさをモデル化するための,ベイズ学習に基づくDNN話者適応フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-14T12:30:41Z) - DEAAN: Disentangled Embedding and Adversarial Adaptation Network for
Robust Speaker Representation Learning [69.70594547377283]
話者関連およびドメイン固有の特徴を解き放つための新しいフレームワークを提案する。
我々のフレームワークは、より話者差別的でドメイン不変な話者表現を効果的に生成できる。
論文 参考訳(メタデータ) (2020-12-12T19:46:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。