論文の概要: Deep scattering network for speech emotion recognition
- arxiv url: http://arxiv.org/abs/2105.04806v1
- Date: Tue, 11 May 2021 06:37:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-13 00:24:20.529107
- Title: Deep scattering network for speech emotion recognition
- Title(参考訳): 音声感情認識のためのディープ散乱ネットワーク
- Authors: Premjeet Singh, Goutam Saha, Md Sahidullah
- Abstract要約: スキャタリングトランスフォーメーションは、情報を失うことなく、変形や時間や周波数の変化に安定した特徴表現を生成します。
散乱係数と標準メル周波数ケプストラム係数(MFCC)を異なるデータベース上で比較する。
周波数散乱は時間領域散乱やMFCCよりも優れていることが観察された。
- 参考スコア(独自算出の注目度): 10.560561286520045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces scattering transform for speech emotion recognition
(SER). Scattering transform generates feature representations which remain
stable to deformations and shifting in time and frequency without much loss of
information. In speech, the emotion cues are spread across time and localised
in frequency. The time and frequency invariance characteristic of scattering
coefficients provides a representation robust against emotion irrelevant
variations e.g., different speakers, language, gender etc. while preserving the
variations caused by emotion cues. Hence, such a representation captures the
emotion information more efficiently from speech. We perform experiments to
compare scattering coefficients with standard mel-frequency cepstral
coefficients (MFCCs) over different databases. It is observed that frequency
scattering performs better than time-domain scattering and MFCCs. We also
investigate layer-wise scattering coefficients to analyse the importance of
time shift and deformation stable scalogram and modulation spectrum
coefficients for SER. We observe that layer-wise coefficients taken
independently also perform better than MFCCs.
- Abstract(参考訳): 本稿では,音声感情認識のための散乱変換を提案する。
散乱変換は変形に対して安定であり、情報を失うことなく時間と周波数をシフトする特徴表現を生成する。
音声では、感情の手がかりは時間に分散し、頻度で局所化される。
散乱係数の時間と周波数の不変性は、異なる話者、言語、性別など、感情と無関係な変動に対して頑健な表現を提供する。
感情の手がかりによって引き起こされる 変化を保ちながら
したがって、このような表現は、音声からより効率的に感情情報をキャプチャする。
分散係数と標準メル周波数ケプストラム係数(MFCC)を異なるデータベース上で比較する実験を行った。
周波数散乱は時間領域散乱やMFCCよりも優れていることが観察された。
また, 時間シフトと変形安定なスカルグラムおよび変調スペクトル係数の重要性を解析するために, 層間散乱係数についても検討した。
独立に取られた層次係数は、MFCCよりも優れた性能を示す。
関連論文リスト
- Time Series Diffusion in the Frequency Domain [54.60573052311487]
周波数領域における時系列表現がスコアベース拡散モデルに有用な帰納バイアスであるか否かを解析する。
重要なニュアンスを持つ周波数領域において、二重拡散過程が生じることを示す。
周波数領域に拡散モデルを実装するために,デノナイジングスコアマッチング手法を適用する方法を示す。
論文 参考訳(メタデータ) (2024-02-08T18:59:05Z) - DiffUCD:Unsupervised Hyperspectral Image Change Detection with Semantic
Correlation Diffusion Model [46.68717345017946]
ハイパースペクトル画像変化検出(HSI-CD)はリモートセンシングにおいて重要な研究領域となっている。
意味相関拡散モデル(DiffUCD)を用いた新しい教師なしHSI-CDを提案する。
提案手法は,多数のサンプルを必要とする完全教師付き手法に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2023-05-21T09:21:41Z) - DDS2M: Self-Supervised Denoising Diffusion Spatio-Spectral Model for
Hyperspectral Image Restoration [103.79030498369319]
ハイパースペクトル画像復元のための自己教師付き拡散モデルを提案する。
textttDDS2Mは、既存の拡散法と比較して、より強力な一般化能力を持っている。
HSIのノイズ除去、ノイズ除去、様々なHSIの超解像実験は、既存のタスク固有状態よりもtextttDDS2Mの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-03-12T14:57:04Z) - Outliers Dimensions that Disrupt Transformers Are Driven by Frequency [79.22656609637525]
トークン周波数が異常現象に寄与することを示す。
また, モデル性能に対する外れ値の影響は層によって異なり, また, 乱れの大きさと符号化されたトークン周波数との相関関係も明らかとなった。
論文 参考訳(メタデータ) (2022-05-23T15:19:09Z) - Scale Dependencies and Self-Similar Models with Wavelet Scattering
Spectra [1.5866079116942815]
複雑なウェーブレット変換は、各スケールで信号の変動を計算する。
スケール間の依存性は、ウェーブレット係数の時間とスケールのジョイント相関によって捉えられる。
このモーメントのベクトルは多スケールプロセスのガウス的でない幅広い性質を特徴付けることを示す。
論文 参考訳(メタデータ) (2022-04-19T22:31:13Z) - Parametric Scattering Networks [23.544950229208485]
我々はウェーブレットフィルタを適用し、散乱変換の問題を特異的にパラメトリゼーションする。
そこで本研究では, 散乱変換の学習バージョンが, サンプル分類設定において, 標準散乱変換よりも有意な性能向上をもたらすことを示す。
論文 参考訳(メタデータ) (2021-07-20T14:52:48Z) - Impact of Spatial Frequency Based Constraints on Adversarial Robustness [0.49478969093606673]
敵対的な例は、人間が敏感でない入力ピクセルの変更を主に利用し、モデルは解釈不能な特徴に基づいて決定するという事実から生じる。
本稿では,異なる空間周波数範囲に対応する情報を活用するために,訓練中に実施されるモデルの対向的摂動に対する頑健性について検討する。
論文 参考訳(メタデータ) (2021-04-26T16:12:04Z) - Equivariant Wavelets: Fast Rotation and Translation Invariant Wavelet
Scattering Transforms [0.0]
画像統計に対称性を与えることは、人間の解釈性を改善し、一般化を助け、寸法減少をもたらす。
本稿では,高速かつ変換不変かつ回転不変なウェーブレット散乱ネットワークを提案する。
論文 参考訳(メタデータ) (2021-04-22T18:00:01Z) - WaveTransform: Crafting Adversarial Examples via Input Decomposition [69.01794414018603]
本稿では,低周波サブバンドと高周波サブバンドに対応する逆雑音を生成するWaveTransformを紹介する。
実験により,提案攻撃は防衛アルゴリズムに対して有効であり,CNN間での転送も可能であることが示された。
論文 参考訳(メタデータ) (2020-10-29T17:16:59Z) - Transforming Spectrum and Prosody for Emotional Voice Conversion with
Non-Parallel Training Data [91.92456020841438]
多くの研究は、実生活では実用的ではない異なる感情パターン間の並列音声データを必要とする。
非並列トレーニングデータから最適な擬似ペアを見つけるために,CycleGANネットワークを提案する。
また、連続ウェーブレット変換(CWT)を用いてF0を10時間スケールに分解し、異なる時間分解における音声韻律を記述する。
論文 参考訳(メタデータ) (2020-02-01T12:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。