論文の概要: DWFormer: Dynamic Window transFormer for Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2303.01694v1
- Date: Fri, 3 Mar 2023 03:26:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-06 16:09:03.675171
- Title: DWFormer: Dynamic Window transFormer for Speech Emotion Recognition
- Title(参考訳): DWFormer: 音声認識のための動的ウィンドウ変換器
- Authors: Shuaiqi Chen, Xiaofen Xing, Weibin Zhang, Weidong Chen, Xiangmin Xu
- Abstract要約: そこで我々はDWFormer(Dynamic Window TransFormer)を提案する。
DWFormerはIEMOCAPとMELDデータセットの両方で評価される。
実験結果から,提案手法は従来の最先端手法よりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 16.07391331544217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech emotion recognition is crucial to human-computer interaction. The
temporal regions that represent different emotions scatter in different parts
of the speech locally. Moreover, the temporal scales of important information
may vary over a large range within and across speech segments. Although
transformer-based models have made progress in this field, the existing models
could not precisely locate important regions at different temporal scales. To
address the issue, we propose Dynamic Window transFormer (DWFormer), a new
architecture that leverages temporal importance by dynamically splitting
samples into windows. Self-attention mechanism is applied within windows for
capturing temporal important information locally in a fine-grained way.
Cross-window information interaction is also taken into account for global
communication. DWFormer is evaluated on both the IEMOCAP and the MELD datasets.
Experimental results show that the proposed model achieves better performance
than the previous state-of-the-art methods.
- Abstract(参考訳): 音声感情認識は人間とコンピュータの相互作用に不可欠である。
異なる感情を表す時間領域は、局所的に話の異なる部分に散在する。
さらに、重要な情報の時間スケールは、音声セグメント内および音声セグメント間で大きく変化する可能性がある。
この分野ではトランスフォーマーベースのモデルが進歩しているが、既存のモデルは時間スケールの異なる重要な領域を正確に見つけることができなかった。
この問題に対処するために、サンプルを動的にウィンドウに分割することで時間的重要性を活用する新しいアーキテクチャであるDynamic Window TransFormer (DWFormer)を提案する。
時間的重要な情報を局所的にきめ細かな方法で捉えるための自己認識機構がウィンドウ内に適用される。
クロスウィンドウ情報インタラクションは、グローバルコミュニケーションにも考慮されている。
DWFormerはIEMOCAPとMELDデータセットの両方で評価される。
実験結果から,提案手法は従来の最先端手法よりも優れた性能を示した。
関連論文リスト
- AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。
公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文 参考訳(メタデータ) (2024-04-12T11:31:18Z) - AMuSE: Adaptive Multimodal Analysis for Speaker Emotion Recognition in
Group Conversations [39.79734528362605]
マルチモーダルアテンションネットワークは、空間抽象の様々なレベルにおける相互モーダル相互作用をキャプチャする。
AMuSEモデルは、空間的特徴と時間的特徴の両方を、話者レベルと発話レベルという2つの濃密な記述子に凝縮する。
論文 参考訳(メタデータ) (2024-01-26T19:17:05Z) - A Transformer-Based Model With Self-Distillation for Multimodal Emotion
Recognition in Conversations [15.77747948751497]
本稿では, 自己蒸留(SDT)を用いたトランスフォーマーモデルを提案する。
提案モデルでは、モーダル内およびモーダル間変換器を用いて、モーダル内およびモーダル間相互作用をキャプチャする。
本稿では,ハードラベルとソフトラベルの知識をモデルから各モダリティへ伝達するために自己蒸留を導入する。
論文 参考訳(メタデータ) (2023-10-31T14:33:30Z) - Disentangled Variational Autoencoder for Emotion Recognition in
Conversations [14.92924920489251]
会話(ERC)における感情認識のためのVAD-VAE(VAD-VAE)を提案する。
VAD-VAEは3つをアンタングルし、Valence-Arousal-Dominance(VAD)を潜在空間から表現する。
実験により、VAD-VAEは2つのデータセット上で最先端のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-05-23T13:50:06Z) - Temporal Modeling Matters: A Novel Temporal Emotional Modeling Approach
for Speech Emotion Recognition [23.13759265661777]
音声感情認識(SER)は、人間と機械の相互作用を改善する上で重要な役割を果たす。
テンポラル・アウェア bI- Multi-scale Network (TIM-Net) と呼ばれるSERのための新しい時間的感情モデル手法を提案する。
論文 参考訳(メタデータ) (2022-11-14T13:35:01Z) - MSA-GCN:Multiscale Adaptive Graph Convolution Network for Gait Emotion
Recognition [6.108523790270448]
本稿では,感情認識のためのマルチスケール適応グラフ畳み込みネットワーク(MSA-GCN)を提案する。
本モデルでは, 適応的選択的時空間畳み込みを設計し, コンボリューションカーネルを動的に選択し, 異なる感情のソフト・テンポラルな特徴を得る。
従来の最先端手法と比較して,提案手法は2つの公開データセット上で最高の性能を実現する。
論文 参考訳(メタデータ) (2022-09-19T13:07:16Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - VIRT: Improving Representation-based Models for Text Matching through
Virtual Interaction [50.986371459817256]
本稿では,VIRT と呼ばれる新しいtextitVirtual InteRacTion 機構を提案する。
VIRTは、表現ベースのエンコーダに、対話ベースのモデルのように振舞いを模倣する仮想インタラクションを実行するよう要求する。
論文 参考訳(メタデータ) (2021-12-08T09:49:28Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Multi-Window Data Augmentation Approach for Speech Emotion Recognition [58.987211083697645]
音声感情認識のためのMWA-SER(Multi-Window Data Augmentation)アプローチを提案する。
MWA-SERは、音声拡張法の設計とディープラーニングモデルの構築という、2つの主要な概念に焦点を当てた一元的アプローチである。
深層学習モデルと組み合わせることで,音声の感情認識性能が向上することを示す。
論文 参考訳(メタデータ) (2020-10-19T22:15:03Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。