論文の概要: Temporal Modeling Matters: A Novel Temporal Emotional Modeling Approach
for Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2211.08233v1
- Date: Mon, 14 Nov 2022 13:35:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 15:39:19.815333
- Title: Temporal Modeling Matters: A Novel Temporal Emotional Modeling Approach
for Speech Emotion Recognition
- Title(参考訳): 時間的モデリング事項:音声感情認識のための新しい時間的感情モデルアプローチ
- Authors: Jiaxin Ye, Xincheng Wen, Yujie Wei, Yong Xu, Kunhong Liu, Hongming
Shan
- Abstract要約: 音声感情認識(SER)は、人間と機械の相互作用を改善する上で重要な役割を果たす。
テンポラル・アウェア bI- Multi-scale Network (TIM-Net) と呼ばれるSERのための新しい時間的感情モデル手法を提案する。
- 参考スコア(独自算出の注目度): 20.227192930417797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech emotion recognition (SER) plays a vital role in improving the
interactions between humans and machines by inferring human emotion and
affective states from speech signals. Whereas recent works primarily focus on
mining spatiotemporal information from hand-crafted features, we explore how to
model the temporal patterns of speech emotions from dynamic temporal scales.
Towards that goal, we introduce a novel temporal emotional modeling approach
for SER, termed Temporal-aware bI-direction Multi-scale Network (TIM-Net),
which learns multi-scale contextual affective representations from various time
scales. Specifically, TIM-Net first employs temporal-aware blocks to learn
temporal affective representation, then integrates complementary information
from the past and the future to enrich contextual representations, and finally,
fuses multiple time scale features for better adaptation to the emotional
variation. Extensive experimental results on six benchmark SER datasets
demonstrate the superior performance of TIM-Net, gaining 2.34% and 2.61%
improvements of the average UAR and WAR over the second-best on each corpus.
Remarkably, TIM-Net outperforms the latest domain-adaptation method on the
cross-corpus SER tasks, demonstrating strong generalizability.
- Abstract(参考訳): 音声感情認識(SER)は、人間の感情や感情状態を音声信号から推定することにより、人間と機械の相互作用を改善する上で重要な役割を果たす。
近年の研究では,手作りの特徴から時空間情報を抽出することを中心に,動的時間的尺度から音声感情の時間的パターンをモデル化する方法が検討されている。
そこで本研究では,様々な時間スケールの文脈的感情表現を学習する時間指向型双方向ネットワーク (tim-net) と呼ばれる,新たな時間的感情モデリング手法を提案する。
具体的には、TIM-Netは、まず時間的認知ブロックを用いて、時間的感情表現を学習し、その後、過去と未来からの補完情報を統合して文脈表現を豊かにする。
6つのベンチマークSERデータセットの大規模な実験結果は、TIM-Netの優れた性能を示し、各コーパスにおける平均的UARとWARの2.34%と2.61%の改善を得た。
注目すべきことに、TIM-Netは、クロスコーパスSERタスクにおける最新のドメイン適応手法よりも優れており、強力な一般化性を示している。
関連論文リスト
- MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis [53.012111671763776]
そこで本研究では、7,145枚の肖像画からなる総合的なベンチマークであるMEMO-Benchを紹介した。
以上の結果から,既存のT2Iモデルは負のモデルよりも肯定的な感情を生成するのに効果的であることが示唆された。
MLLMは人間の感情の識別と認識に一定の効果を示すが、人間のレベルの正確さには欠ける。
論文 参考訳(メタデータ) (2024-11-18T02:09:48Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - DWFormer: Dynamic Window transFormer for Speech Emotion Recognition [16.07391331544217]
そこで我々はDWFormer(Dynamic Window TransFormer)を提案する。
DWFormerはIEMOCAPとMELDデータセットの両方で評価される。
実験結果から,提案手法は従来の最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-03-03T03:26:53Z) - GM-TCNet: Gated Multi-scale Temporal Convolutional Network using Emotion
Causality for Speech Emotion Recognition [14.700043991797537]
本稿では,新しい感情的因果表現学習コンポーネントを構築するために,GM-TCNet(Gated Multi-scale Temporal Convolutional Network)を提案する。
GM-TCNetは、時間領域全体の感情のダイナミクスを捉えるために、新しい感情因果表現学習コンポーネントをデプロイする。
我々のモデルは、最先端技術と比較して、ほとんどのケースで最高の性能を維持している。
論文 参考訳(メタデータ) (2022-10-28T02:00:40Z) - MSA-GCN:Multiscale Adaptive Graph Convolution Network for Gait Emotion
Recognition [6.108523790270448]
本稿では,感情認識のためのマルチスケール適応グラフ畳み込みネットワーク(MSA-GCN)を提案する。
本モデルでは, 適応的選択的時空間畳み込みを設計し, コンボリューションカーネルを動的に選択し, 異なる感情のソフト・テンポラルな特徴を得る。
従来の最先端手法と比較して,提案手法は2つの公開データセット上で最高の性能を実現する。
論文 参考訳(メタデータ) (2022-09-19T13:07:16Z) - Dilated Context Integrated Network with Cross-Modal Consensus for
Temporal Emotion Localization in Videos [128.70585652795637]
TELは、時間的行動の局所化と比較して3つのユニークな課題を提示している。
感情は時間的ダイナミクスが非常に多様である。
微粒な時間的アノテーションは複雑で、労働集約的です。
論文 参考訳(メタデータ) (2022-08-03T10:00:49Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Multimodal Emotion Recognition with High-level Speech and Text Features [8.141157362639182]
本稿では,wav2vec 2.0音声特徴量に対する感情認識を実現するために,新しいクロス表現音声モデルを提案する。
また、Transformerベースのモデルを用いて抽出したテキスト特徴から感情を認識するために、CNNベースのモデルをトレーニングする。
本手法は,4クラス分類問題においてIEMOCAPデータセットを用いて評価する。
論文 参考訳(メタデータ) (2021-09-29T07:08:40Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Temporal aggregation of audio-visual modalities for emotion recognition [0.5352699766206808]
本研究では,時間的オフセットの異なる時間的オフセットと時間的ウィンドウからの音声・視覚的モダリティを組み合わせた感情認識のためのマルチモーダル融合手法を提案する。
提案手法は,文献と人間の精度評価から,他の手法よりも優れている。
論文 参考訳(メタデータ) (2020-07-08T18:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。