論文の概要: Towards Interpretable and Transferable Speech Emotion Recognition:
Latent Representation Based Analysis of Features, Methods and Corpora
- arxiv url: http://arxiv.org/abs/2105.02055v1
- Date: Wed, 5 May 2021 13:47:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-06 16:19:34.116015
- Title: Towards Interpretable and Transferable Speech Emotion Recognition:
Latent Representation Based Analysis of Features, Methods and Corpora
- Title(参考訳): 解釈可能・伝達可能な音声感情認識に向けて:潜在表現に基づく特徴・方法・コーパスの分析
- Authors: Sneha Das and Nicole Nadine L{\o}nfeldt and Anne Katrine Pagsberg and
Line H. Clemmensen
- Abstract要約: 音声感情認識(ser: speech emotion recognition)は、医療から商業部門まで、幅広い用途で用いられてきた。
言語、コーポラ、録音条件の一般化は、この分野では依然としてオープンな課題です。
- 参考スコア(独自算出の注目度): 8.719165583453304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, speech emotion recognition (SER) has been used in wide
ranging applications, from healthcare to the commercial sector. In addition to
signal processing approaches, methods for SER now also use deep learning
techniques. However, generalizing over languages, corpora and recording
conditions is still an open challenge in the field. Furthermore, due to the
black-box nature of deep learning algorithms, a newer challenge is the lack of
interpretation and transparency in the models and the decision making process.
This is critical when the SER systems are deployed in applications that
influence human lives. In this work we address this gap by providing an
in-depth analysis of the decision making process of the proposed SER system.
Towards that end, we present low-complexity SER based on undercomplete- and
denoising- autoencoders that achieve an average classification accuracy of over
55\% for four-class emotion classification. Following this, we investigate the
clustering of emotions in the latent space to understand the influence of the
corpora on the model behavior and to obtain a physical interpretation of the
latent embedding. Lastly, we explore the role of each input feature towards the
performance of the SER.
- Abstract(参考訳): 近年,医療分野から商業分野まで,音声感情認識(ser)が広く応用されている。
信号処理のアプローチに加えて、SERの手法もディープラーニング技術を使用している。
しかし、言語、コーパス、記録条件の一般化は、この分野ではまだ未解決の課題である。
さらに、ディープラーニングアルゴリズムのブラックボックスの性質から、モデルと意思決定プロセスにおける解釈と透明性の欠如が新たな課題となっている。
SERシステムが人間の生活に影響を与えるアプリケーションにデプロイされる場合、これは重要なことです。
本研究では,提案するSERシステムの意思決定過程を詳細に分析することで,このギャップに対処する。
そこで本研究では,4階層の感情分類において,平均的分類精度が55\%以上となる不完全・非正規化オートエンコーダに基づく低複雑度serを提案する。
次に,潜伏空間における感情のクラスタリングを調査し,モデル行動に対するコーパスの影響を理解し,潜伏埋め込みの物理的解釈を得る。
最後に,SERの性能に対する各入力機能の役割について検討する。
関連論文リスト
- Unveiling Hidden Factors: Explainable AI for Feature Boosting in Speech Emotion Recognition [17.568724398229232]
音声感情認識(SER)は、メンタルヘルス、教育、人間とコンピュータの相互作用など、いくつかの応用分野から注目されている。
本研究では,機械学習モデルの性能向上のための特徴関連性と説明可能性を強調した,SERの反復的特徴増強手法を提案する。
提案手法の有効性をトロントの感情音声セット(TESS)、ベルリンの感情音声データベース(EMO-DB)、Ryersonの感情音声データベース(RAVDESS)、Surrey Audio-Visual Expressed Emotioned Emotion(SAVEE)データセットのSERベンチマークで検証した。
論文 参考訳(メタデータ) (2024-06-01T00:39:55Z) - Self-supervised Gait-based Emotion Representation Learning from Selective Strongly Augmented Skeleton Sequences [4.740624855896404]
自己教師型歩行に基づく感情表現のための選択的強強化を利用したコントラスト学習フレームワークを提案する。
提案手法はEmotion-Gait (E-Gait) と Emilya のデータセットで検証され, 異なる評価プロトコル下での最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-05-08T09:13:10Z) - How are Prompts Different in Terms of Sensitivity? [50.67313477651395]
本稿では,関数の感度に基づく包括的即時解析を提案する。
出力に対する入力トークンの関連性に異なるプロンプトがどう影響するかを実証的に示すために、勾配に基づく唾液度スコアを使用する。
本稿では, 感度推定をペナルティ項として組み込んだ感度認識復号法を標準グリーディ復号法で導入する。
論文 参考訳(メタデータ) (2023-11-13T10:52:01Z) - Representation Engineering: A Top-Down Approach to AI Transparency [132.0398250233924]
表現工学の新たな領域(RepE)を特定し,特徴付ける
RepEは、神経細胞や回路ではなく、人口レベルの表現を解析の中心に置く。
これらの手法が、広範囲の安全関連問題に対してどのようにトラクションを提供するかを紹介する。
論文 参考訳(メタデータ) (2023-10-02T17:59:07Z) - Unsupervised Representations Improve Supervised Learning in Speech
Emotion Recognition [1.3812010983144798]
本研究では,小さな音声セグメントからの感情認識のための自己教師付き特徴抽出と教師付き分類を統合した革新的なアプローチを提案する。
事前処理では,Wav2Vecモデルに基づく自己教師付き特徴抽出器を用いて音声データから音響特徴を抽出した。
次に、前処理ステップの出力特徴マップを、カスタム設計の畳み込みニューラルネットワーク(CNN)ベースのモデルに入力し、感情分類を行う。
論文 参考訳(メタデータ) (2023-09-22T08:54:06Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Interpretability for Multimodal Emotion Recognition using Concept
Activation Vectors [0.0]
概念活性化ベクトル(CAV)を用いた感情認識におけるニューラルネットワークの解釈可能性の問題に対処する。
Emotion AI特有の人間理解可能な概念を定義し、広く使われているIEMOCAPマルチモーダルデータベースにマッピングする。
次に,2方向コンテキストLSTM(BC-LSTM)ネットワークの複数の層において,提案する概念の影響を評価する。
論文 参考訳(メタデータ) (2022-02-02T15:02:42Z) - Affect-DML: Context-Aware One-Shot Recognition of Human Affect using
Deep Metric Learning [29.262204241732565]
既存の方法は、すべての関心の感情に注釈付きトレーニングの例として優先順位が与えられると仮定している。
我々は、文脈における感情のワンショット認識を概念化し、単一のサポートサンプルからより細かい粒子レベルの人間の影響状態を認識することを目的とした新しい問題である。
モデルの全変種は、ランダムなベースラインよりも明らかに優れており、セマンティックシーンのコンテキストを活用することで、学習された表現を一貫して改善している。
論文 参考訳(メタデータ) (2021-11-30T10:35:20Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z) - Computational Emotion Analysis From Images: Recent Advances and Future
Directions [79.05003998727103]
本章では,画像感情分析(IEA)を計算的観点から導入することを目的としている。
心理学の一般的な感情表現モデルから始めます。
そして、研究者たちが解決しようとしている重要な計算問題を定義します。
論文 参考訳(メタデータ) (2021-03-19T13:33:34Z) - Fairness by Learning Orthogonal Disentangled Representations [50.82638766862974]
不変表現問題に対する新しい非絡み合い手法を提案する。
エントロピーによりセンシティブな情報に依存しない有意義な表現を強制する。
提案手法は5つの公開データセットで評価される。
論文 参考訳(メタデータ) (2020-03-12T11:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。