論文の概要: Emotion Recognition in Audio and Video Using Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2006.08129v1
- Date: Mon, 15 Jun 2020 04:50:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 04:10:29.495372
- Title: Emotion Recognition in Audio and Video Using Deep Neural Networks
- Title(参考訳): ディープニューラルネットワークを用いた音声・ビデオの感情認識
- Authors: Mandeep Singh and Yuan Fang
- Abstract要約: ディープラーニング技術の進歩により、音声認識が大幅に向上した。
音声から感情を認識することは重要な側面であり、ディープラーニング技術により、感情認識は精度とレイテンシが向上した。
本研究では、感情認識の精度を向上させるために、異なるニューラルネットワークを探索する。
- 参考スコア(独自算出の注目度): 9.694548197876868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans are able to comprehend information from multiple domains for e.g.
speech, text and visual. With advancement of deep learning technology there has
been significant improvement of speech recognition. Recognizing emotion from
speech is important aspect and with deep learning technology emotion
recognition has improved in accuracy and latency. There are still many
challenges to improve accuracy. In this work, we attempt to explore different
neural networks to improve accuracy of emotion recognition. With different
architectures explored, we find (CNN+RNN) + 3DCNN multi-model architecture
which processes audio spectrograms and corresponding video frames giving
emotion prediction accuracy of 54.0% among 4 emotions and 71.75% among 3
emotions using IEMOCAP[2] dataset.
- Abstract(参考訳): 人間は、音声、テキスト、視覚など、複数のドメインからの情報を理解することができる。
ディープラーニング技術の進歩により、音声認識が大幅に向上した。
音声から感情を認識することは重要な側面であり、ディープラーニング技術によって感情認識は精度とレイテンシが向上した。
精度向上にはまだまだ多くの課題がある。
本研究では,感情認識の精度を向上させるために,異なるニューラルネットワークを探索する。
CNN+RNN) + 3DCNNマルチモデルアーキテクチャは、4つの感情のうち54.0%、IEMOCAP[2]データセットを用いて3つの感情のうち71.75%の感情を予測する。
関連論文リスト
- Speech Emotion Recognition Using CNN and Its Use Case in Digital Healthcare [0.0]
人間の感情と感情状態を音声から識別するプロセスは、音声感情認識(SER)として知られている。
私の研究は、畳み込みニューラルネットワーク(CNN)を使って、音声録音と感情を区別し、異なる感情の範囲に応じてラベル付けすることを目指しています。
私は、機械学習手法を用いて、供給された音声ファイルから感情を識別する機械学習モデルを開発した。
論文 参考訳(メタデータ) (2024-06-15T21:33:03Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Speech and Text-Based Emotion Recognizer [0.9168634432094885]
我々は、音声感情認識のための公開データセットからバランスの取れたコーパスを構築する。
最良システムはマルチモーダル音声とテキストベースモデルであり,UA(Unweighed Accuracy)+WA(Weighed Accuracy)を119.66のベースラインアルゴリズムと比較して157.57の性能を提供する。
論文 参考訳(メタデータ) (2023-12-10T05:17:39Z) - Accurate Emotion Strength Assessment for Seen and Unseen Speech Based on
Data-Driven Deep Learning [70.30713251031052]
本研究では,データ駆動型深層学習モデル,すなわちSenseNetを提案する。
実験の結果,提案した強度ネットの予測感情強度は,目視と目視の両方の真理値と高い相関性を示した。
論文 参考訳(メタデータ) (2022-06-15T01:25:32Z) - Emotion Recognition In Persian Speech Using Deep Neural Networks [0.0]
音声感情認識(SER)はヒューマン・コンピュータインタラクション(HCI)において非常に重要である
本稿では,SheEMOデータセット上での様々な深層学習手法について検討する。
論文 参考訳(メタデータ) (2022-04-28T16:02:05Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - End-to-End Speech Emotion Recognition: Challenges of Real-Life Emergency
Call Centers Data Recordings [0.0]
音声感情認識のためのエンドツーエンドのディープラーニングシステムは、従来の機械学習手法と同等あるいはそれ以上の結果が得られる。
コミュニティが利用できる広く使われているコーパスであるIEMOCAPで、まずそれをトレーニングし、テストしました。
次に、485人の話者から440のダイアログ(2h16m)からなる実生活コーパスCEMOと同じアーキテクチャを使用した。
論文 参考訳(メタデータ) (2021-10-28T08:56:57Z) - Stimuli-Aware Visual Emotion Analysis [75.68305830514007]
本稿では,刺激選択,特徴抽出,感情予測の3段階からなる刺激認識型視覚感情分析(VEA)手法を提案する。
我々の知る限りでは、エンド・ツー・エンドのネットワークでVEAに刺激選択プロセスを導入するのは初めてです。
実験により、提案手法は、4つの公的な視覚的感情データセットに対する最先端のアプローチよりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2021-09-04T08:14:52Z) - Continuous Emotion Recognition with Spatiotemporal Convolutional Neural
Networks [82.54695985117783]
In-theld でキャプチャした長いビデオシーケンスを用いて,持続的な感情認識のための最先端のディープラーニングアーキテクチャの適合性を検討する。
我々は,2D-CNNと長期記憶ユニットを組み合わせた畳み込みリカレントニューラルネットワークと,2D-CNNモデルの微調整時の重みを膨らませて構築した膨らませた3D-CNNモデルを開発した。
論文 参考訳(メタデータ) (2020-11-18T13:42:05Z) - Emotion Recognition System from Speech and Visual Information based on
Convolutional Neural Networks [6.676572642463495]
本研究では,感情を高精度かつリアルタイムに認識できるシステムを提案する。
音声認識システムの精度を高めるため、音声データも分析し、両情報源から得られる情報を融合する。
論文 参考訳(メタデータ) (2020-02-29T22:09:46Z) - An End-to-End Visual-Audio Attention Network for Emotion Recognition in
User-Generated Videos [64.91614454412257]
畳み込みニューラルネットワーク(CNN)に基づくエンドツーエンドの映像感情認識を提案する。
具体的には,空間的,チャネル的,時間的注意を視覚的に3D CNNに統合し,時間的注意をオーディオ2D CNNに組み込む新しいアーキテクチャである,深層ビジュアル・オーディオ・アテンション・ネットワーク(VAANet)を開発した。
論文 参考訳(メタデータ) (2020-02-12T15:33:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。