論文の概要: DeepEMO: Deep Learning for Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2109.04081v1
- Date: Thu, 9 Sep 2021 07:51:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-10 13:56:56.984855
- Title: DeepEMO: Deep Learning for Speech Emotion Recognition
- Title(参考訳): DeepEMO: 音声認識のためのディープラーニング
- Authors: Enkhtogtokh Togootogtokh, Christian Klasen
- Abstract要約: 産業において、慎重に提案された深層移動学習技術は、トレーニングデータの可用性の低さ、機械学習コスト、専用のAIタスクに関する専門的な学習のために、実際の結果を示す。
提案する音声認識フレームワークはDeepEMOと呼ばれ、効率的な主特徴抽出のための前処理と、学習と認識のためのディープラーニング学習モデルという2つの主要パイプラインで構成されている。
- 参考スコア(独自算出の注目度): 1.3960152426268764
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We proposed the industry level deep learning approach for speech emotion
recognition task. In industry, carefully proposed deep transfer learning
technology shows real results due to mostly low amount of training data
availability, machine training cost, and specialized learning on dedicated AI
tasks. The proposed speech recognition framework, called DeepEMO, consists of
two main pipelines such that preprocessing to extract efficient main features
and deep transfer learning model to train and recognize. Main source code is in
https://github.com/enkhtogtokh/deepemo repository
- Abstract(参考訳): 音声感情認識タスクにおける産業レベルの深層学習手法を提案する。
産業において、慎重に提案された深層移動学習技術は、トレーニングデータの可用性の低さ、機械学習コスト、専用のAIタスクに関する専門的な学習のために、実際の結果を示す。
deepemoと呼ばれる音声認識フレームワークは、効率的な主機能を抽出する前処理と、トレーニングと認識のためのディープトランスファー学習モデルという2つの主要なパイプラインで構成されている。
ソースコードはhttps://github.com/enkhtogtokh/deepemoリポジトリにある。
関連論文リスト
- Speaker Emotion Recognition: Leveraging Self-Supervised Models for Feature Extraction Using Wav2Vec2 and HuBERT [0.0]
本研究では, 自己教師型トランスフォーマーモデルであるWav2Vec2とHuBERTを用いて, 話者の感情を音声から判断する。
提案手法は、RAVDESS、SHEMO、SAVEE、AESDD、Emo-DBを含む計算可能なデータセットに基づいて評価される。
論文 参考訳(メタデータ) (2024-11-05T10:06:40Z) - Deep Photonic Reservoir Computer for Speech Recognition [49.1574468325115]
音声認識は人工知能の分野で重要な課題であり、目覚ましい進歩を目撃してきた。
深い貯水池コンピューティングはエネルギー効率が高いが、よりリソース集約的な機械学習アルゴリズムと比較して、パフォーマンスに制限がある。
フォトニック方式の深層貯水池コンピュータを提案し,その性能を音声認識タスクで評価する。
論文 参考訳(メタデータ) (2023-12-11T17:43:58Z) - Implementation of AI Deep Learning Algorithm For Multi-Modal Sentiment
Analysis [0.9065034043031668]
2チャンネル畳み込みニューラルネットワークとリングネットワークを組み合わせることで,マルチモーダル感情認識手法を確立した。
単語はGloVeでベクトル化され、ワードベクトルは畳み込みニューラルネットワークに入力される。
論文 参考訳(メタデータ) (2023-11-19T05:49:39Z) - Unsupervised Representations Improve Supervised Learning in Speech
Emotion Recognition [1.3812010983144798]
本研究では,小さな音声セグメントからの感情認識のための自己教師付き特徴抽出と教師付き分類を統合した革新的なアプローチを提案する。
事前処理では,Wav2Vecモデルに基づく自己教師付き特徴抽出器を用いて音声データから音響特徴を抽出した。
次に、前処理ステップの出力特徴マップを、カスタム設計の畳み込みニューラルネットワーク(CNN)ベースのモデルに入力し、感情分類を行う。
論文 参考訳(メタデータ) (2023-09-22T08:54:06Z) - Accurate Emotion Strength Assessment for Seen and Unseen Speech Based on
Data-Driven Deep Learning [70.30713251031052]
本研究では,データ駆動型深層学習モデル,すなわちSenseNetを提案する。
実験の結果,提案した強度ネットの予測感情強度は,目視と目視の両方の真理値と高い相関性を示した。
論文 参考訳(メタデータ) (2022-06-15T01:25:32Z) - Emotion Recognition In Persian Speech Using Deep Neural Networks [0.0]
音声感情認識(SER)はヒューマン・コンピュータインタラクション(HCI)において非常に重要である
本稿では,SheEMOデータセット上での様々な深層学習手法について検討する。
論文 参考訳(メタデータ) (2022-04-28T16:02:05Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Deep learning approaches for neural decoding: from CNNs to LSTMs and
spikes to fMRI [2.0178765779788495]
神経信号から直接の行動、知覚、認知状態の復号化は、脳-コンピュータインタフェースの研究に応用されている。
過去10年間で、ディープラーニングは多くの機械学習タスクにおいて最先端の手法になっている。
ディープラーニングは、幅広いタスクにわたるニューラルデコーディングの正確性と柔軟性を改善するための有用なツールであることが示されている。
論文 参考訳(メタデータ) (2020-05-19T18:10:35Z) - An End-to-End Visual-Audio Attention Network for Emotion Recognition in
User-Generated Videos [64.91614454412257]
畳み込みニューラルネットワーク(CNN)に基づくエンドツーエンドの映像感情認識を提案する。
具体的には,空間的,チャネル的,時間的注意を視覚的に3D CNNに統合し,時間的注意をオーディオ2D CNNに組み込む新しいアーキテクチャである,深層ビジュアル・オーディオ・アテンション・ネットワーク(VAANet)を開発した。
論文 参考訳(メタデータ) (2020-02-12T15:33:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。