論文の概要: Non-linear frequency warping using constant-Q transformation for speech
emotion recognition
- arxiv url: http://arxiv.org/abs/2102.04029v1
- Date: Mon, 8 Feb 2021 06:57:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 03:43:45.780797
- Title: Non-linear frequency warping using constant-Q transformation for speech
emotion recognition
- Title(参考訳): 定Q変換を用いた非線形周波数ワープによる音声感情認識
- Authors: Premjeet Singh, Goutam Saha, Md Sahidullah
- Abstract要約: 音声感情認識のための定数Q変換(CQT)について検討する。
CQTに基づく時間周波数解析は、低周波数での高周波数分解能を持つ可変分光時間分解能を提供する。
バックエンド分類器としてディープニューラルネットワーク(DNN)を用いたSERのSTFTとCQTを用いた短期音響特性の比較分析を行った。
- 参考スコア(独自算出の注目度): 10.560561286520045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we explore the constant-Q transform (CQT) for speech emotion
recognition (SER). The CQT-based time-frequency analysis provides variable
spectro-temporal resolution with higher frequency resolution at lower
frequencies. Since lower-frequency regions of speech signal contain more
emotion-related information than higher-frequency regions, the increased
low-frequency resolution of CQT makes it more promising for SER than standard
short-time Fourier transform (STFT). We present a comparative analysis of
short-term acoustic features based on STFT and CQT for SER with deep neural
network (DNN) as a back-end classifier. We optimize different parameters for
both features. The CQT-based features outperform the STFT-based spectral
features for SER experiments. Further experiments with cross-corpora evaluation
demonstrate that the CQT-based systems provide better generalization with
out-of-domain training data.
- Abstract(参考訳): 本研究では,音声感情認識のためのconstant-q変換(cqt)について検討する。
CQTに基づく時間周波数解析は、低い周波数で高い周波数分解能を持つ可変分光時間分解能を提供する。
音声信号の低周波領域は高周波領域よりも感情関連情報が多いため、cqtの低周波分解能は標準短時間フーリエ変換(stft)よりもserに有望である。
本稿では,ディープニューラルネットワーク(dnn)をバックエンド分類器として用いたsftとcqtに基づく短期音響特徴の比較分析を行う。
両方の機能で異なるパラメータを最適化します。
CQTベースの機能はSER実験においてSTFTベースのスペクトル特性よりも優れていた。
クロスコーポラ評価によるさらなる実験は、CQTベースのシステムがドメイン外のトレーニングデータによりより良い一般化を提供することを示している。
関連論文リスト
- Frequency-Aware Deepfake Detection: Improving Generalizability through
Frequency Space Learning [81.98675881423131]
この研究は、目に見えないディープフェイク画像を効果的に識別できるユニバーサルディープフェイク検出器を開発するという課題に対処する。
既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。
本稿では、周波数領域学習を中心にしたFreqNetと呼ばれる新しい周波数認識手法を導入し、ディープフェイク検出器の一般化性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-03-12T01:28:00Z) - Federated Quantum Long Short-term Memory (FedQLSTM) [58.50321380769256]
量子フェデレーション学習(QFL)は、量子機械学習(QML)モデルを使用して、複数のクライアント間の協調学習を容易にする。
関数の近似に時間的データを利用するQFLフレームワークの開発に前向きな作業は行われていない。
量子長短期メモリ(QLSTM)モデルと時間データを統合する新しいQFLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-21T21:40:47Z) - Diagnostic Spatio-temporal Transformer with Faithful Encoding [54.02712048973161]
本稿では,データ生成プロセスが複合時間(ST)依存性を持つ場合の異常診断の課題について述べる。
我々は、ST依存を時系列分類の副産物として学習する、教師付き依存発見として問題を定式化する。
既存のST変圧器で使用される時間的位置符号化は、高周波数(短時間スケール)の周波数をキャプチャする重大な制限を有することを示す。
また、空間的および時間的方向の両方で容易に消費可能な診断情報を提供する新しいST依存性発見フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-26T05:31:23Z) - Vector Quantized Time Series Generation with a Bidirectional Prior Model [0.3867363075280544]
時系列生成(TSG)の研究は、主にGAN(Generative Adversarial Networks)とリカレントニューラルネットワーク(RNN)の亜種の使用に焦点を当てている。
本稿では,ベクトル量子化(VQ)技術を用いてTSG問題に対処するTimeVQVAEを提案する。
また、低周波(LF)と高周波(HF)に分かれた時間周波数領域におけるVQモデリングを提案する。
論文 参考訳(メタデータ) (2023-03-08T17:27:39Z) - Speech Emotion Recognition via an Attentive Time-Frequency Neural
Network [21.87456615530486]
我々は、音声感情認識(SER)のための注意時間周波数ニューラルネットワーク(ATFNN)を提案する。
具体的には、Transformerエンコーダに基づく周波数領域エンコーダ(F-Encoder)と、Bidirectional Long Short-Term Memory(Bi-LSTM)に基づく時間領域エンコーダ(T-Encoder)を備えたTFNNを設計する。
第2の課題に対処するため,周波数アテンションネットワーク(F-Attention)と時間アテンションネットワーク(T-Attention)を併用して,感情関連周波数帯域と時間フレーム範囲に着目した。
論文 参考訳(メタデータ) (2022-10-22T12:18:26Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - Functional Regularization for Reinforcement Learning via Learned Fourier
Features [98.90474131452588]
本稿では、入力を学習されたフーリエベースに埋め込むことにより、深層強化学習のための簡単なアーキテクチャを提案する。
その結果、状態ベースと画像ベースの両方のRLのサンプル効率が向上することがわかった。
論文 参考訳(メタデータ) (2021-12-06T18:59:52Z) - Fourier Features Let Networks Learn High Frequency Functions in Low
Dimensional Domains [69.62456877209304]
単純なフーリエ特徴写像を通して入力点を渡すことで、多層パーセプトロンが高周波関数を学習できることを示す。
結果は、最先端の結果を達成するコンピュータビジョンとグラフィックの進歩に光を当てた。
論文 参考訳(メタデータ) (2020-06-18T17:59:11Z) - Multi-Time-Scale Convolution for Emotion Recognition from Speech Audio
Signals [7.219077740523682]
本稿では,音声データを解析する際の時間変動に対する柔軟性を実現するため,マルチタイムスケール(MTS)手法を提案する。
MTSと標準畳み込み層を,異なる大きさの4つのデータセットを用いて,音声からの感情認識のための異なるアーキテクチャで評価した。
論文 参考訳(メタデータ) (2020-03-06T12:28:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。