論文の概要: AHD ConvNet for Speech Emotion Classification
- arxiv url: http://arxiv.org/abs/2206.05286v1
- Date: Fri, 10 Jun 2022 11:57:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-19 16:01:42.754067
- Title: AHD ConvNet for Speech Emotion Classification
- Title(参考訳): 音声感情分類のためのAHD ConvNet
- Authors: Asfand Ali, Danial Nasir, Mohammad Hassan Jawad
- Abstract要約: 本稿では,一般的なCREMA-Dデータセットにおいて,与えられたwav形式の音声ノートから感情を学習するためのデータポイントを用いた新しいメルスペクトル学習手法を提案する。
感情音声認識の課題に対処するために用いられた他のアプローチと比較して、トレーニング時間が短縮された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accomplishments in the field of artificial intelligence are utilized in the
advancement of computing and making of intelligent machines for facilitating
mankind and improving user experience. Emotions are rudimentary for people,
affecting thinking and ordinary exercises like correspondence, learning and
direction. Speech emotion recognition is domain of interest in this regard and
in this work, we propose a novel mel spectrogram learning approach in which our
model uses the datapoints to learn emotions from the given wav form voice notes
in the popular CREMA-D dataset. Our model uses log mel-spectrogram as feature
with number of mels = 64. It took less training time compared to other
approaches used to address the problem of emotion speech recognition.
- Abstract(参考訳): 人工知能の分野での成果は、人類の促進とユーザエクスペリエンスの向上のために、コンピューティングの進歩とインテリジェントマシンの開発に活用されている。
感情は人々にとって初歩的であり、思考や、コミュニケーション、学習、指示といった通常の運動に影響を与える。
本研究では,このデータポイントを用いて,一般的なCREMA-Dデータセットにおいて,与えられたwav形式の音声ノートから感情を学習する,新しいメルスペクトル学習手法を提案する。
我々のモデルは、mels = 64の値を持つ機能としてlog mel-spectrogramを使用します。
感情音声認識の問題に対処する他のアプローチと比較して、トレーニング時間が短縮された。
関連論文リスト
- Speaker Emotion Recognition: Leveraging Self-Supervised Models for Feature Extraction Using Wav2Vec2 and HuBERT [0.0]
本研究では, 自己教師型トランスフォーマーモデルであるWav2Vec2とHuBERTを用いて, 話者の感情を音声から判断する。
提案手法は、RAVDESS、SHEMO、SAVEE、AESDD、Emo-DBを含む計算可能なデータセットに基づいて評価される。
論文 参考訳(メタデータ) (2024-11-05T10:06:40Z) - Speech Emotion Recognition Using CNN and Its Use Case in Digital Healthcare [0.0]
人間の感情と感情状態を音声から識別するプロセスは、音声感情認識(SER)として知られている。
私の研究は、畳み込みニューラルネットワーク(CNN)を使って、音声録音と感情を区別し、異なる感情の範囲に応じてラベル付けすることを目指しています。
私は、機械学習手法を用いて、供給された音声ファイルから感情を識別する機械学習モデルを開発した。
論文 参考訳(メタデータ) (2024-06-15T21:33:03Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Accurate Emotion Strength Assessment for Seen and Unseen Speech Based on
Data-Driven Deep Learning [70.30713251031052]
本研究では,データ駆動型深層学習モデル,すなわちSenseNetを提案する。
実験の結果,提案した強度ネットの予測感情強度は,目視と目視の両方の真理値と高い相関性を示した。
論文 参考訳(メタデータ) (2022-06-15T01:25:32Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - Multimodal Emotion Recognition with High-level Speech and Text Features [8.141157362639182]
本稿では,wav2vec 2.0音声特徴量に対する感情認識を実現するために,新しいクロス表現音声モデルを提案する。
また、Transformerベースのモデルを用いて抽出したテキスト特徴から感情を認識するために、CNNベースのモデルをトレーニングする。
本手法は,4クラス分類問題においてIEMOCAPデータセットを用いて評価する。
論文 参考訳(メタデータ) (2021-09-29T07:08:40Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z) - Embedded Emotions -- A Data Driven Approach to Learn Transferable
Feature Representations from Raw Speech Input for Emotion Recognition [1.4556324908347602]
本研究では,大規模テキストと音声コーパスから学習した知識を自動感情認識のタスクに適用する可能性について検討する。
その結果,学習した特徴表現を音声言語からの感情の分類に効果的に適用できることが示唆された。
論文 参考訳(メタデータ) (2020-09-30T09:18:31Z) - Temporal aggregation of audio-visual modalities for emotion recognition [0.5352699766206808]
本研究では,時間的オフセットの異なる時間的オフセットと時間的ウィンドウからの音声・視覚的モダリティを組み合わせた感情認識のためのマルチモーダル融合手法を提案する。
提案手法は,文献と人間の精度評価から,他の手法よりも優れている。
論文 参考訳(メタデータ) (2020-07-08T18:44:15Z) - An End-to-End Visual-Audio Attention Network for Emotion Recognition in
User-Generated Videos [64.91614454412257]
畳み込みニューラルネットワーク(CNN)に基づくエンドツーエンドの映像感情認識を提案する。
具体的には,空間的,チャネル的,時間的注意を視覚的に3D CNNに統合し,時間的注意をオーディオ2D CNNに組み込む新しいアーキテクチャである,深層ビジュアル・オーディオ・アテンション・ネットワーク(VAANet)を開発した。
論文 参考訳(メタデータ) (2020-02-12T15:33:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。