Fugu-MT 論文翻訳(概要): Improving Speaker-independent Speech Emotion Recognition Using Dynamic Joint Distribution Adaptation

論文の概要: Improving Speaker-independent Speech Emotion Recognition Using Dynamic Joint Distribution Adaptation

arxiv url: http://arxiv.org/abs/2401.09752v1
Date: Thu, 18 Jan 2024 06:52:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-19 17:45:56.135471
Title: Improving Speaker-independent Speech Emotion Recognition Using Dynamic Joint Distribution Adaptation
Title（参考訳）: 動的関節分布適応を用いた話者独立音声認識の改良
Authors: Cheng Lu, Yuan Zong, Hailun Lian, Yan Zhao, Bj\"orn Schuller, and Wenming Zheng
Abstract要約: 話者に依存しない音声感情認識では、様々な話者からトレーニングとテストサンプルが収集される。トレーニングされたモデルが新しい話者のデータに直面すると、その性能は低下する傾向にある。マルチソースドメイン適応の枠組みに基づく動的共同分散適応法(DJDA)を提案する。
参考スコア（独自算出の注目度）: 15.64999039870125
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In speaker-independent speech emotion recognition, the training and testing samples are collected from diverse speakers, leading to a multi-domain shift challenge across the feature distributions of data from different speakers. Consequently, when the trained model is confronted with data from new speakers, its performance tends to degrade. To address the issue, we propose a Dynamic Joint Distribution Adaptation (DJDA) method under the framework of multi-source domain adaptation. DJDA firstly utilizes joint distribution adaptation (JDA), involving marginal distribution adaptation (MDA) and conditional distribution adaptation (CDA), to more precisely measure the multi-domain distribution shifts caused by different speakers. This helps eliminate speaker bias in emotion features, allowing for learning discriminative and speaker-invariant speech emotion features from coarse-level to fine-level. Furthermore, we quantify the adaptation contributions of MDA and CDA within JDA by using a dynamic balance factor based on $\mathcal{A}$-Distance, promoting to effectively handle the unknown distributions encountered in data from new speakers. Experimental results demonstrate the superior performance of our DJDA as compared to other state-of-the-art (SOTA) methods.
Abstract（参考訳）: 話者に依存しない音声感情認識では、トレーニングとテストサンプルは多様な話者から収集され、異なる話者からのデータの特徴分布にまたがるマルチドメインシフトの課題につながる。その結果、トレーニングされたモデルが新しい話者のデータに直面すると、その性能は低下する傾向にある。この問題に対処するため,マルチソースドメイン適応の枠組みに基づく動的共同分散適応法(DJDA)を提案する。 DJDAは、まず、境界分布適応(MDA)と条件分布適応(CDA)を含む関節分布適応(JDA)を利用し、異なる話者によるマルチドメイン分布シフトをより正確に測定する。これにより、感情特徴の話者バイアスを排除し、識別的および話者不変の音声感情特徴を粗いレベルから細かいレベルに学習することができる。さらに、$\mathcal{A}$-Distanceに基づく動的バランス係数を用いて、JDA内のMDAおよびCDAの適応寄与を定量化し、新しい話者のデータから発生する未知の分布を効果的に扱うことを促進した。実験により,他のSOTA法と比較して,DJDAの優れた性能が示された。

関連論文リスト

DAMSDAN: Distribution-Aware Multi-Source Domain Adaptation Network for Cross-Domain EEG-based Emotion Recognition [19.010493629153288]
感情認識のための分散型マルチソースドメイン適応ネットワーク(DAMSDAN)を提案する。 DAMSDANは、プロトタイプベースの制約と敵対学習を統合して、エンコーダを識別的、ドメイン不変な感情表現へと駆動する。 SEEDとSEED-IVの実験では、クロスオブジェクトは平均94.86%、79.78%、クロスセッションプロトコルは95.12%、83.15%である。
論文参考訳（メタデータ） (2025-10-20T12:18:46Z)
High-Quality Sound Separation Across Diverse Categories via Visually-Guided Generative Modeling [65.02357548201188]
DAVIS(Diffusion-based Audio-VIsual separation framework)を提案する。本フレームワークは、混合音声入力と関連する視覚情報に基づいて、ノイズ分布から直接、所望の分離音スペクトルを合成することによって機能する。
論文参考訳（メタデータ） (2025-09-26T08:46:00Z)
CO-VADA: A Confidence-Oriented Voice Augmentation Debiasing Approach for Fair Speech Emotion Recognition [49.27067541740956]
モデルアーキテクチャの変更や人口統計情報への依存を伴わずにバイアスを緩和する信頼性指向音声強調脱バイアス手法であるCO-VADAを提案する。 CO-VADAはトレーニングデータに存在するバイアスパターンを反映したトレーニングサンプルを特定し、無関係な属性を変更してサンプルを生成するために音声変換を適用する。我々のフレームワークは様々なSERモデルや音声変換ツールと互換性があり、SERシステムの公平性を改善するためのスケーラブルで実用的なソリューションとなっている。
論文参考訳（メタデータ） (2025-06-06T13:25:56Z)
Efficient Distribution Matching of Representations via Noise-Injected Deep InfoMax [73.03684002513218]
我々はDeep InfoMax(DIM)を拡張し、学習した表現を選択された事前分布に自動マッチングできるようにする。このような修正により、一様かつ通常に分散した表現を学習できることを示す。その結果,下流作業における性能とDMの品質の中間的なトレードオフが示唆された。
論文参考訳（メタデータ） (2024-10-09T15:40:04Z)
Adversarial Domain Adaptation for Cross-user Activity Recognition Using Diffusion-based Noise-centred Learning [0.0]
HAR(Human Activity Recognition)は、人間とコンピュータの相互作用や医療モニタリングなど、様々な用途において重要な役割を担っている。本稿では,拡散に基づく雑音中心型適応型適応(Diff-Noise-Adv-DA)という新しいフレームワークを提案する。生成拡散モデリングと逆学習技術を活用することで,これらの課題に対処する。
論文参考訳（メタデータ） (2024-08-06T08:55:49Z)
DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。 DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文参考訳（メタデータ） (2023-10-18T17:07:05Z)
A Comparative Study on Speaker-attributed Automatic Speech Recognition in Multi-party Meetings [53.120885867427305]
会議シナリオにおける話者分散自動音声認識(SA-ASR)の3つのアプローチを評価する。 WD-SOT法は平均話者依存文字誤り率(SD-CER)を10.7%削減する TS-ASRアプローチはFD-SOTアプローチよりも優れ、16.5%の相対的なSD-CER削減をもたらす。
論文参考訳（メタデータ） (2022-03-31T06:39:14Z)
On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文参考訳（メタデータ） (2022-03-28T09:12:24Z)
Interpretable Dysarthric Speaker Adaptation based on Optimal-Transport [3.903766260291157]
コマンド音声認識における話者適応(SA)に着目し,複数の情報源からのデータを利用できる。最適トランスポートに基づく教師なしマルチソースドメイン適応(MSDA)アルゴリズムを提案する。話者非依存モデルに対して,コマンド誤り率を相対的に16%, 7%削減し, 最適な競合手法を提案する。
論文参考訳（メタデータ） (2022-03-14T14:39:00Z)
Bures Joint Distribution Alignment with Dynamic Margin for Unsupervised Domain Adaptation [17.06364218327213]
非教師なしドメイン適応(Unsupervised domain adapt, UDA)は、トランスファーラーニングにおける顕著なタスクの1つである。本稿では,共同分布間のカーネル・ブレス=ヴァッサーシュタイン距離を最小化するアライメント損失項を提案する。実験により、BJDAは、ほとんどの実験環境で最先端のアルゴリズムよりも優れており、UDAタスクに非常に効果的であることが示された。
論文参考訳（メタデータ） (2022-03-14T03:20:01Z)
Optimal Transport-based Adaptation in Dysarthric Speech Tasks [6.609497621455247]
音声データにおいて、ミスマッチの原因は異なる音響環境や話者特性を含む。 MSDA-WDJOT(Meighted Joint Optimal Transport)を用いた最適な輸送手法を提案する。 MSDA-WJDOTは、コマンド音声認識における発話器適応に用いる。
論文参考訳（メタデータ） (2021-04-06T14:26:34Z)
Bayesian Learning for Deep Neural Network Adaptation [57.70991105736059]
音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。モデルに基づく話者適応手法は、ロバスト性を確保するために十分な量のターゲット話者データを必要とすることが多い。本稿では,話者依存型(SD)パラメータの不確かさをモデル化するための,ベイズ学習に基づくDNN話者適応フレームワークを提案する。
論文参考訳（メタデータ） (2020-12-14T12:30:41Z)
DEAAN: Disentangled Embedding and Adversarial Adaptation Network for Robust Speaker Representation Learning [69.70594547377283]
話者関連およびドメイン固有の特徴を解き放つための新しいフレームワークを提案する。我々のフレームワークは、より話者差別的でドメイン不変な話者表現を効果的に生成できる。
論文参考訳（メタデータ） (2020-12-12T19:46:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。