論文の概要: Speech Emotion Recognition via an Attentive Time-Frequency Neural
Network
- arxiv url: http://arxiv.org/abs/2210.12430v1
- Date: Sat, 22 Oct 2022 12:18:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 22:03:20.259251
- Title: Speech Emotion Recognition via an Attentive Time-Frequency Neural
Network
- Title(参考訳): 注意時間周波数ニューラルネットワークによる音声感情認識
- Authors: Cheng Lu, Wenming Zheng, Hailun Lian, Yuan Zong, Chuangao Tang, Sunan
Li, and Yan Zhao
- Abstract要約: 我々は、音声感情認識(SER)のための注意時間周波数ニューラルネットワーク(ATFNN)を提案する。
具体的には、Transformerエンコーダに基づく周波数領域エンコーダ(F-Encoder)と、Bidirectional Long Short-Term Memory(Bi-LSTM)に基づく時間領域エンコーダ(T-Encoder)を備えたTFNNを設計する。
第2の課題に対処するため,周波数アテンションネットワーク(F-Attention)と時間アテンションネットワーク(T-Attention)を併用して,感情関連周波数帯域と時間フレーム範囲に着目した。
- 参考スコア(独自算出の注目度): 21.87456615530486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spectrogram is commonly used as the input feature of deep neural networks to
learn the high(er)-level time-frequency pattern of speech signal for speech
emotion recognition (SER). \textcolor{black}{Generally, different emotions
correspond to specific energy activations both within frequency bands and time
frames on spectrogram, which indicates the frequency and time domains are both
essential to represent the emotion for SER. However, recent spectrogram-based
works mainly focus on modeling the long-term dependency in time domain, leading
to these methods encountering the following two issues: (1) neglecting to model
the emotion-related correlations within frequency domain during the
time-frequency joint learning; (2) ignoring to capture the specific frequency
bands associated with emotions.} To cope with the issues, we propose an
attentive time-frequency neural network (ATFNN) for SER, including a
time-frequency neural network (TFNN) and time-frequency attention.
Specifically, aiming at the first issue, we design a TFNN with a
frequency-domain encoder (F-Encoder) based on the Transformer encoder and a
time-domain encoder (T-Encoder) based on the Bidirectional Long Short-Term
Memory (Bi-LSTM). The F-Encoder and T-Encoder model the correlations within
frequency bands and time frames, respectively, and they are embedded into a
time-frequency joint learning strategy to obtain the time-frequency patterns
for speech emotions. Moreover, to handle the second issue, we also adopt
time-frequency attention with a frequency-attention network (F-Attention) and a
time-attention network (T-Attention) to focus on the emotion-related frequency
band ranges and time frame ranges, which can enhance the discriminability of
speech emotion features.
- Abstract(参考訳): スペクトログラムは、音声感情認識(SER)のための高(er)レベルの音声信号パターンを学習するために、ディープニューラルネットワークの入力特徴として一般的に用いられる。
一般に、異なる感情は周波数帯域内の特定のエネルギー活性化とスペクトログラム上の時間フレームの両方に対応しており、これはSERの感情を表現するのに周波数領域と時間領域の両方が不可欠であることを示している。
しかし,近年のスペクトログラムに基づく研究は,時間領域における長期依存のモデル化に主眼を置き,(1)時間領域内の感情関連相関のモデル化を怠る,(2)感情に関連する特定の周波数帯域を捉えない、という2つの課題に遭遇した。
この問題に対処するため、時間周波数ニューラルネットワーク(TFNN)や時間周波数アテンションを含む、SERのための注意型時間周波数ニューラルネットワーク(ATFNN)を提案する。
具体的には、まず、Transformerエンコーダに基づく周波数領域エンコーダ(F-Encoder)と、Bidirectional Long Short-Term Memory(Bi-LSTM)に基づく時間領域エンコーダ(T-Encoder)を備えたTFNNを設計する。
fエンコーダとtエンコーダはそれぞれ周波数帯域と時間フレーム間の相関をモデル化し、これらを時間-周波数合同学習戦略に組み込んで音声感情の時間-周波数パターンを得る。
また,第2の課題に対処するために,周波数対応ネットワーク (f-attention) とt-attention network (t-attention) を用いて,感情関連周波数帯域幅と時間フレーム範囲に着目し,音声感情特徴の識別性を向上させる。
関連論文リスト
- NAC-TCN: Temporal Convolutional Networks with Causal Dilated
Neighborhood Attention for Emotion Understanding [60.74434735079253]
畳み込みTCN(NAC-TCN)を用いた近傍注意法を提案する。
これを実現するために、Dilated Neighborhood Attentionの因果バージョンを導入し、畳み込みを組み込んだ。
我々のモデルは、標準的な感情認識データセットに少ないパラメータを必要としながら、TCN、TCL、LSTM、GRUに匹敵する、より優れた、あるいは最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-12T18:41:30Z) - Vocos: Closing the gap between time-domain and Fourier-based neural vocoders for high-quality audio synthesis [1.4277428617774877]
フーリエスペクトル係数を直接生成する新しいモデルであるVocosを提案する。
計算効率を大幅に向上し、時間領域のニューラルネットワークのボコーディングアプローチに比べて、桁違いにスピードが向上する。
論文 参考訳(メタデータ) (2023-06-01T15:40:32Z) - Time-space-frequency feature Fusion for 3-channel motor imagery
classification [0.0]
本研究では,時間空間の周波数を考慮した新しいネットワークアーキテクチャであるTSFF-Netを紹介する。
TSFF-Netは、時間周波数表現、時間周波数特徴抽出、時間空間特徴抽出、特徴融合と分類の4つの主要コンポーネントから構成される。
実験により、TSFF-Netは、脳波復号法における単一モード特徴抽出ネットワークの欠点を補うだけでなく、他の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-04-04T02:01:48Z) - Braille Letter Reading: A Benchmark for Spatio-Temporal Pattern
Recognition on Neuromorphic Hardware [50.380319968947035]
近年の深層学習手法は,そのようなタスクにおいて精度が向上しているが,従来の組込みソリューションへの実装は依然として計算量が非常に高く,エネルギーコストも高い。
文字読み込みによるエッジにおける触覚パターン認識のための新しいベンチマークを提案する。
フィードフォワードとリカレントスパイキングニューラルネットワーク(SNN)を、サロゲート勾配の時間によるバックプロパゲーションを用いてオフラインでトレーニングし比較し、効率的な推論のためにIntel Loihimorphicチップにデプロイした。
LSTMは14%の精度で繰り返しSNNより優れており、Loihi上での繰り返しSNNは237倍のエネルギーである。
論文 参考訳(メタデータ) (2022-05-30T14:30:45Z) - Adaptive Frequency Learning in Two-branch Face Forgery Detection [66.91715092251258]
本稿では、AFDと呼ばれる2分岐検出フレームワークにおいて、周波数情報を適応的に学習する手法を提案する。
我々は、固定周波数変換からネットワークを解放し、データおよびタスク依存の変換層でより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-27T14:25:52Z) - Time and Frequency Network for Human Action Detection in Videos [6.78349879472022]
TFNetという,時刻と周波数を同時に考慮したエンドツーエンドネットワークを提案する。
動作パターンを得るには、これら2つの特徴を注目機構の下で深く融合させる。
論文 参考訳(メタデータ) (2021-03-08T11:42:05Z) - Non-linear frequency warping using constant-Q transformation for speech
emotion recognition [10.560561286520045]
音声感情認識のための定数Q変換(CQT)について検討する。
CQTに基づく時間周波数解析は、低周波数での高周波数分解能を持つ可変分光時間分解能を提供する。
バックエンド分類器としてディープニューラルネットワーク(DNN)を用いたSERのSTFTとCQTを用いた短期音響特性の比較分析を行った。
論文 参考訳(メタデータ) (2021-02-08T06:57:16Z) - Attention and Encoder-Decoder based models for transforming articulatory
movements at different speaking rates [60.02121449986413]
LSTMを用いたエンコーダデコーダアーキテクチャを提案する。
変換された調音運動の振幅を原音と異なる速度で解析する。
AstNetは,既存の変換手法よりも音節運動の持続時間と範囲をモデル化できる。
論文 参考訳(メタデータ) (2020-06-04T19:33:26Z) - Multi-Time-Scale Convolution for Emotion Recognition from Speech Audio
Signals [7.219077740523682]
本稿では,音声データを解析する際の時間変動に対する柔軟性を実現するため,マルチタイムスケール(MTS)手法を提案する。
MTSと標準畳み込み層を,異なる大きさの4つのデータセットを用いて,音声からの感情認識のための異なるアーキテクチャで評価した。
論文 参考訳(メタデータ) (2020-03-06T12:28:04Z) - An End-to-End Visual-Audio Attention Network for Emotion Recognition in
User-Generated Videos [64.91614454412257]
畳み込みニューラルネットワーク(CNN)に基づくエンドツーエンドの映像感情認識を提案する。
具体的には,空間的,チャネル的,時間的注意を視覚的に3D CNNに統合し,時間的注意をオーディオ2D CNNに組み込む新しいアーキテクチャである,深層ビジュアル・オーディオ・アテンション・ネットワーク(VAANet)を開発した。
論文 参考訳(メタデータ) (2020-02-12T15:33:59Z) - WaveTTS: Tacotron-based TTS with Joint Time-Frequency Domain Loss [74.11899135025503]
Tacotron-based text-to-speech (TTS) システムはテキスト入力から直接音声を合成する。
本稿では2つの損失関数を持つタコトロン型TS(WaveTTS)の新たなトレーニング手法を提案する。
WaveTTSは、音響特性と結果の音声波形の両方の品質を保証する。
論文 参考訳(メタデータ) (2020-02-02T15:51:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。