論文の概要: Gaussian-smoothed Imbalance Data Improves Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2302.08650v1
- Date: Fri, 17 Feb 2023 01:50:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-20 16:17:22.365036
- Title: Gaussian-smoothed Imbalance Data Improves Speech Emotion Recognition
- Title(参考訳): gaussian-smoothed imbalance dataは音声感情認識を改善する
- Authors: Xuefeng Liang, Hexin Jiang, Wenxin Xu, Ying Zhou
- Abstract要約: 音声感情認識タスクでは、モデルはデータセットから感情表現を学ぶ。
Pairwise-emotion Data Distribution Smoothing (PDDS)法を提案する。
PDDSは、感情データの分布は現実的には滑らかであるべきだと考え、その後、ガウス的平滑化を感情ペアに適用する。
- 参考スコア(独自算出の注目度): 13.122307335012097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In speech emotion recognition tasks, models learn emotional representations
from datasets. We find the data distribution in the IEMOCAP dataset is very
imbalanced, which may harm models to learn a better representation. To address
this issue, we propose a novel Pairwise-emotion Data Distribution Smoothing
(PDDS) method. PDDS considers that the distribution of emotional data should be
smooth in reality, then applies Gaussian smoothing to emotion-pairs for
constructing a new training set with a smoother distribution. The required new
data are complemented using the mixup augmentation. As PDDS is model and
modality agnostic, it is evaluated with three SOTA models on the IEMOCAP
dataset. The experimental results show that these models are improved by 0.2\%
- 4.8\% and 1.5\% - 5.9\% in terms of WA and UA. In addition, an ablation study
demonstrates that the key advantage of PDDS is the reasonable data distribution
rather than a simple data augmentation.
- Abstract(参考訳): 音声感情認識タスクでは、モデルはデータセットから感情表現を学ぶ。
IEMOCAPデータセットのデータ分布は非常に不均衡であり、より良い表現を学ぶためにモデルに害を与える可能性がある。
そこで本研究では,Pairwise-emotion Data Distribution Smoothing (PDDS)法を提案する。
PDDSは、感情データの分布は現実的にはスムーズであるべきだと考え、その後、よりスムーズな分布を持つ新しいトレーニングセットを構築するための感情ペアにガウス的スムージングを適用した。
必要な新しいデータはmixup拡張を使用して補完される。
PDDSはモデルおよびモダリティに依存しないため、IEMOCAPデータセット上の3つのSOTAモデルを用いて評価する。
実験の結果,これらのモデルではWAおよびUAで0.2\%-4.8\%,1.5\%-5.9\%の改善が見られた。
さらに、アブレーション研究では、PDDSの鍵となる利点は、単純なデータ拡張ではなく、合理的なデータ分布であることを示した。
関連論文リスト
- Towards a Theoretical Understanding of Memorization in Diffusion Models [76.85077961718875]
拡散確率モデル(DPM)は、生成人工知能(GenAI)の主流モデルとして採用されている。
モデル収束を前提とした条件付きおよび非条件付きDPMにおける記憶の理論的理解を提供する。
本研究では、生成されたデータに基づいて訓練された時間依存型分類器を代理条件として利用し、無条件DPMからトレーニングデータを抽出する、textbfSurrogate condItional Data extract (SIDE) という新しいデータ抽出手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T13:17:06Z) - ADLDA: A Method to Reduce the Harm of Data Distribution Shift in Data Augmentation [11.887799310374174]
本研究では,データ分散シフトの負の影響を軽減することを目的とした新しいデータ拡張手法であるADLDAを紹介する。
実験により、ADLDAは複数のデータセットにわたるモデル性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-05-11T03:20:35Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - Efficient data selection employing Semantic Similarity-based Graph
Structures for model training [1.5845679507219355]
本稿では,SeSaME(Semantics for Data SAliency in Model Performance Estimation)を紹介する。
これはテキスト情報のみに基づく効率的なデータサンプリング機構であり、計算量の多いモデルにデータを渡すことなく利用できる。
このアプローチの適用例は、低リソース自動音声認識(ASR)モデルの使用例で示される。
論文 参考訳(メタデータ) (2024-02-22T09:43:53Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Intriguing Properties of Data Attribution on Diffusion Models [33.77847454043439]
データ帰属は、望ましいアウトプットをトレーニングデータに戻そうとする。
データ属性は、高直感的または著作権のあるデータを適切に割り当てるためのモジュールになっている。
論文 参考訳(メタデータ) (2023-11-01T13:00:46Z) - DiffusionEngine: Diffusion Model is Scalable Data Engine for Object
Detection [41.436817746749384]
Diffusion Modelはオブジェクト検出のためのスケーラブルなデータエンジンである。
DiffusionEngine(DE)は、高品質な検出指向のトレーニングペアを単一のステージで提供する。
論文 参考訳(メタデータ) (2023-09-07T17:55:01Z) - Augmentation-Aware Self-Supervision for Data-Efficient GAN Training [68.81471633374393]
識別器が過度に適合する傾向があるため、限られたデータでGANを訓練することは困難である。
本稿では,拡張データの拡張パラメータを予測する,拡張型自己教師型識別器を提案する。
本稿では,クラス条件の BigGAN と非条件の StyleGAN2 アーキテクチャを用いた State-of-the-art (SOTA) 手法と比較する。
論文 参考訳(メタデータ) (2022-05-31T10:35:55Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z) - DecAug: Augmenting HOI Detection via Decomposition [54.65572599920679]
現在のアルゴリズムでは、データセット内のトレーニングサンプルやカテゴリの不均衡が不足している。
本稿では,HOI検出のためのDECAugと呼ばれる効率的かつ効率的なデータ拡張手法を提案する。
実験の結果,V-COCOおよびHICODETデータセットの3.3mAPと1.6mAPの改善が得られた。
論文 参考訳(メタデータ) (2020-10-02T13:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。