論文の概要: A Siamese Neural Network with Modified Distance Loss For Transfer
Learning in Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2006.03001v1
- Date: Thu, 4 Jun 2020 16:44:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 09:44:06.988169
- Title: A Siamese Neural Network with Modified Distance Loss For Transfer
Learning in Speech Emotion Recognition
- Title(参考訳): 音声感情認識における伝達学習のための距離損失を改良したシアムニューラルネット
- Authors: Kexin Feng, Theodora Chaspari
- Abstract要約: 本稿では,最もユビキタスで頻繁に使用される生物行動信号の1つである音声を用いた感情認識タスクを提案する。
これらの結果から,提案した距離損失は,シームズネットワークの微調整過程に大きく寄与することが示された。
- 参考スコア(独自算出の注目度): 10.961439164833891
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic emotion recognition plays a significant role in the process of
human computer interaction and the design of Internet of Things (IOT)
technologies. Yet, a common problem in emotion recognition systems lies in the
scarcity of reliable labels. By modeling pairwise differences between samples
of interest, a Siamese network can help to mitigate this challenge since it
requires fewer samples than traditional deep learning methods. In this paper,
we propose a distance loss, which can be applied on the Siamese network
fine-tuning, by optimizing the model based on the relevant distance between
same and difference class pairs. Our system use samples from the source data to
pre-train the weights of proposed Siamese neural network, which are fine-tuned
based on the target data. We present an emotion recognition task that uses
speech, since it is one of the most ubiquitous and frequently used
bio-behavioral signals. Our target data comes from the RAVDESS dataset, while
the CREMA-D and eNTERFACE'05 are used as source data, respectively. Our results
indicate that the proposed distance loss is able to greatly benefit the
fine-tuning process of Siamese network. Also, the selection of source data has
more effect on the Siamese network performance compared to the number of frozen
layers. These suggest the great potential of applying the Siamese network and
modelling pairwise differences in the field of transfer learning for automatic
emotion recognition.
- Abstract(参考訳): 人間のコンピュータインタラクションのプロセスやモノのインターネット(IOT)技術の設計において,自動感情認識が重要な役割を果たす。
しかし、感情認識システムにおける一般的な問題は、信頼できるラベルの不足にある。
興味のあるサンプル間のペアワイズの違いをモデル化することで、従来のディープラーニング手法よりもサンプルが少ないため、Siameseネットワークはこの課題を軽減するのに役立つ。
本稿では,同一クラスと差分クラス間の関係した距離に基づいてモデルを最適化することにより,シームズネットワークの微調整に適用可能な距離損失を提案する。
本システムでは,対象データに基づいて微調整されたシームズニューラルネットワークの重みを事前学習するために,ソースデータからのサンプルを用いる。
本稿では,最もユビキタスで頻繁に使用される生物行動信号の1つである音声を用いた感情認識タスクを提案する。
ターゲットデータはRAVDESSデータセットから,CREMA-DとeNTERFACE'05はそれぞれソースデータとして使用される。
以上の結果から,提案する距離損失は,シャムネットワークの微調整プロセスに大きなメリットがあることが示唆された。
また, ソースデータの選択は, 凍結層数と比較して, シームズネットワークの性能に影響を及ぼす。
これらのことは、サイムズネットワークを適用し、自動感情認識のための伝達学習の分野における相違をモデル化する大きな可能性を示唆している。
関連論文リスト
- Deep Imbalanced Learning for Multimodal Emotion Recognition in
Conversations [15.705757672984662]
会話におけるマルチモーダル感情認識(MERC)は、マシンインテリジェンスにとって重要な開発方向である。
MERCのデータの多くは自然に感情カテゴリーの不均衡な分布を示しており、研究者は感情認識に対する不均衡なデータの負の影響を無視している。
生データにおける感情カテゴリーの不均衡分布に対処するクラス境界拡張表現学習(CBERL)モデルを提案する。
我々は,IEMOCAPおよびMELDベンチマークデータセットの広範な実験を行い,CBERLが感情認識の有効性において一定の性能向上を達成したことを示す。
論文 参考訳(メタデータ) (2023-12-11T12:35:17Z) - Assessing Neural Network Representations During Training Using
Noise-Resilient Diffusion Spectral Entropy [55.014926694758195]
ニューラルネットワークにおけるエントロピーと相互情報は、学習プロセスに関する豊富な情報を提供する。
データ幾何を利用して基礎となる多様体にアクセスし、これらの情報理論測度を確実に計算する。
本研究は,高次元シミュレーションデータにおける固有次元と関係強度の耐雑音性の測定結果である。
論文 参考訳(メタデータ) (2023-12-04T01:32:42Z) - A Hybrid End-to-End Spatio-Temporal Attention Neural Network with
Graph-Smooth Signals for EEG Emotion Recognition [1.6328866317851187]
本稿では,ネットワーク・テンポラルエンコーディングと繰り返しアテンションブロックのハイブリッド構造を用いて,解釈可能な表現を取得するディープニューラルネットワークを提案する。
提案したアーキテクチャは、公開されているDEAPデータセット上での感情分類の最先端結果を上回ることを実証する。
論文 参考訳(メタデータ) (2023-07-06T15:35:14Z) - EMERSK -- Explainable Multimodal Emotion Recognition with Situational
Knowledge [0.0]
状況知識を用いた説明可能なマルチモーダル感情認識(EMERSK)を提案する。
EMERSKは視覚情報を用いた人間の感情認識と説明のための汎用システムである。
本システムは, 表情, 姿勢, 歩行などの複数のモーダルを柔軟かつモジュラーな方法で処理することができる。
論文 参考訳(メタデータ) (2023-06-14T17:52:37Z) - A Comparative Study of Data Augmentation Techniques for Deep Learning
Based Emotion Recognition [11.928873764689458]
感情認識のための一般的なディープラーニングアプローチを包括的に評価する。
音声信号の長距離依存性が感情認識に重要であることを示す。
スピード/レート向上は、モデル間で最も堅牢なパフォーマンス向上を提供する。
論文 参考訳(メタデータ) (2022-11-09T17:27:03Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Towards Unbiased Visual Emotion Recognition via Causal Intervention [63.74095927462]
本稿では,データセットバイアスによる負の効果を軽減するために,新しい感情認識ネットワーク(IERN)を提案する。
IERNの有効性を検証する一連の設計されたテストと、3つの感情ベンチマークの実験は、IERNが他の最先端のアプローチよりも優れていることを示した。
論文 参考訳(メタデータ) (2021-07-26T10:40:59Z) - The FaceChannel: A Fast & Furious Deep Neural Network for Facial
Expression Recognition [71.24825724518847]
顔の表情の自動認識(FER)の最先端モデルは、非常に深いニューラルネットワークに基づいており、訓練には効果的だがかなり高価である。
私たちは、一般的なディープニューラルネットワークよりもはるかに少ないパラメータを持つ軽量ニューラルネットワークであるFaceChannelを形式化します。
我々は、私たちのモデルがFERの現在の最先端技術に匹敵するパフォーマンスを達成する方法を実証する。
論文 参考訳(メタデータ) (2020-09-15T09:25:37Z) - Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision
Action Recognition [131.6328804788164]
本稿では,視覚・センサ・モダリティ(動画)における行動認識を強化するためのフレームワーク,Semantics-Aware Adaptive Knowledge Distillation Networks (SAKDN)を提案する。
SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGB動画を学生のモダリティとして使用している。
論文 参考訳(メタデータ) (2020-09-01T03:38:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。