論文の概要: emoDARTS: Joint Optimisation of CNN & Sequential Neural Network Architectures for Superior Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2403.14083v1
- Date: Thu, 21 Mar 2024 02:26:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 15:46:42.774781
- Title: emoDARTS: Joint Optimisation of CNN & Sequential Neural Network Architectures for Superior Speech Emotion Recognition
- Title(参考訳): emoDARTS:CNNと逐次ニューラルネットワークアーキテクチャの協調最適化による音声感情認識
- Authors: Thejan Rajapakshe, Rajib Rana, Sara Khalifa, Berrak Sisman, Bjorn W. Schuller, Carlos Busso,
- Abstract要約: 音声感情認識(SER)は、コンピュータが人間のコミュニケーションで伝達される感情を理解するために重要である。
本研究では,DARTSを最適化したCNNとSeqNN(SeqNN: LSTM, RNN)アーキテクチャであるemoDARTSについて述べる。
- 参考スコア(独自算出の注目度): 26.29080428328618
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech Emotion Recognition (SER) is crucial for enabling computers to understand the emotions conveyed in human communication. With recent advancements in Deep Learning (DL), the performance of SER models has significantly improved. However, designing an optimal DL architecture requires specialised knowledge and experimental assessments. Fortunately, Neural Architecture Search (NAS) provides a potential solution for automatically determining the best DL model. The Differentiable Architecture Search (DARTS) is a particularly efficient method for discovering optimal models. This study presents emoDARTS, a DARTS-optimised joint CNN and Sequential Neural Network (SeqNN: LSTM, RNN) architecture that enhances SER performance. The literature supports the selection of CNN and LSTM coupling to improve performance. While DARTS has previously been used to choose CNN and LSTM operations independently, our technique adds a novel mechanism for selecting CNN and SeqNN operations in conjunction using DARTS. Unlike earlier work, we do not impose limits on the layer order of the CNN. Instead, we let DARTS choose the best layer order inside the DARTS cell. We demonstrate that emoDARTS outperforms conventionally designed CNN-LSTM models and surpasses the best-reported SER results achieved through DARTS on CNN-LSTM by evaluating our approach on the IEMOCAP, MSP-IMPROV, and MSP-Podcast datasets.
- Abstract(参考訳): 音声感情認識(SER)は、コンピュータが人間のコミュニケーションで伝達される感情を理解するために重要である。
近年のディープラーニング(DL)の進歩により,SERモデルの性能は大幅に向上した。
しかし、最適なDLアーキテクチャを設計するには、専門知識と実験的な評価が必要である。
幸いなことに、Neural Architecture Search (NAS)は、最高のDLモデルを自動的に決定する潜在的なソリューションを提供する。
微分可能なアーキテクチャ探索(DARTS)は、最適なモデルを発見するための特に効率的な方法である。
本研究では,DARTSを最適化したCNNとSeqNN(SeqNN: LSTM, RNN)アーキテクチャであるemoDARTSについて述べる。
この文献は性能向上のためにCNNとLSTM結合の選択をサポートする。
DARTSは従来,CNNとLSTMの操作を独立に選択するために用いられてきたが,本手法では,DARTSを用いてCNNとSeqNNの操作を同時に選択する機構が新たに追加された。
以前の作業とは異なり、私たちはCNNのレイヤ順序に制限を課していません。
代わりに、DARTSはDARTSセル内の最良の層を選ばせます。
EmoDARTSは従来のCNN-LSTMモデルよりも優れており、IEMOCAP, MSP-IMPROV, MSP-Podcastデータセットに対する我々のアプローチを評価することで、DARTS on CNN-LSTMで達成された最高のSER結果を上回っている。
関連論文リスト
- Enhancing Speech Emotion Recognition Through Differentiable Architecture
Search [10.155873909545196]
音声感情認識(英: Speech Emotion Recognition, SER)は、人間とコンピュータの相互作用における感情認識コミュニケーションの重要な実現要因である。
近年のディープラーニング(DL)の進歩により,SERモデルの性能が大幅に向上している。
本稿では,DARTSを最適化したCNNとLSTMアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-05-23T10:16:08Z) - Neural Architecture Search for Speech Emotion Recognition [72.1966266171951]
本稿では,SERモデルの自動構成にニューラルアーキテクチャサーチ(NAS)技術を適用することを提案する。
NASはモデルパラメータサイズを維持しながらSER性能(54.89%から56.28%)を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-03-31T10:16:10Z) - Classification of diffraction patterns using a convolutional neural
network in single particle imaging experiments performed at X-ray
free-electron lasers [53.65540150901678]
X線自由電子レーザー(XFEL)における単一粒子イメージング(SPI)は、その自然環境における粒子の3次元構造を決定するのに特に適している。
再建を成功させるためには、単一のヒットに由来する回折パターンを多数の取得パターンから分離する必要がある。
本稿では,この課題を画像分類問題として定式化し,畳み込みニューラルネットワーク(CNN)アーキテクチャを用いて解決することを提案する。
論文 参考訳(メタデータ) (2021-12-16T17:03:14Z) - Assessing learned features of Deep Learning applied to EEG [0.0]
生の脳波データに基づいて訓練されたCNNから脳波関連特徴を抽出するために3つの異なる手法を用いる。
我々は,CNNモデルの可視化により,興味深い脳波結果が得られることを示した。
論文 参考訳(メタデータ) (2021-11-08T07:43:40Z) - A Novel Sleep Stage Classification Using CNN Generated by an Efficient
Neural Architecture Search with a New Data Processing Trick [4.365107026636095]
本稿では,畳み込みニューラルネットワーク(CNN)を用いた新しいデータ処理手法を用いて,効率的な5ステップの分類手法を提案する。
我々は、遺伝的アルゴリズム(GA)NASGを最大限に活用して、最高のCNNアーキテクチャを探索する。
我々は,データ処理トリックの収束性を検証するとともに,従来のCNNの性能をそのトリックの前後で比較する。
論文 参考訳(メタデータ) (2021-10-27T10:36:52Z) - Receptive Field Regularization Techniques for Audio Classification and
Tagging with Deep Convolutional Neural Networks [7.9495796547433395]
CNNの受容場(RF)のチューニングは,その一般化に不可欠であることを示す。
我々は,CNNのRFを制御し,結果のアーキテクチャを体系的にテストする,いくつかの系統的なアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-26T08:36:29Z) - The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。
本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文 参考訳(メタデータ) (2021-01-29T07:46:39Z) - Efficient Arabic emotion recognition using deep neural networks [21.379338888447602]
音声信号からの感情認識の問題に対処するために,2つのニューラルアーキテクチャを実装した。
1つは注意に基づくCNN-LSTM-DNNモデル、もう1つは深層CNNモデルである。
アラビア語音声の感情認識タスクの結果から,我々の革新的なアプローチが大きな改善をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-31T19:39:37Z) - Video-based Facial Expression Recognition using Graph Convolutional
Networks [57.980827038988735]
我々は、ビデオベースの表情認識のための共通のCNN-RNNモデルに、GCN(Graph Convolutional Network)層を導入する。
我々は、CK+、Oulu-CASIA、MMIの3つの広く使われているデータセットと、AFEW8.0の挑戦的なワイルドデータセットについて、本手法の評価を行った。
論文 参考訳(メタデータ) (2020-10-26T07:31:51Z) - Exploring Deep Hybrid Tensor-to-Vector Network Architectures for
Regression Based Speech Enhancement [53.47564132861866]
我々は、CNN-TTというハイブリッドアーキテクチャが、モデルパラメータを小さくして高品質な性能を維持することができることを見出した。
CNN-TTは、音声品質を改善するために、特徴抽出のために下部に複数の畳み込み層で構成されている。
論文 参考訳(メタデータ) (2020-07-25T22:21:05Z) - Neural Architecture Search For LF-MMI Trained Time Delay Neural Networks [61.76338096980383]
TDNN(State-of-the-the-art Factored Time delay Neural Network)の2種類のハイパーパラメータを自動的に学習するために、さまざまなニューラルネットワークサーチ(NAS)技術が使用されている。
DARTSメソッドはアーキテクチャ選択とLF-MMI(格子のないMMI)TDNNトレーニングを統合する。
300時間のSwitchboardコーパスで行われた実験では、自動構成システムはベースラインLF-MMI TDNNシステムより一貫して優れていることが示唆された。
論文 参考訳(メタデータ) (2020-07-17T08:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。