論文の概要: Speech Emotion Recognition using Self-Supervised Features
- arxiv url: http://arxiv.org/abs/2202.03896v1
- Date: Mon, 7 Feb 2022 00:50:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-09 15:04:51.609396
- Title: Speech Emotion Recognition using Self-Supervised Features
- Title(参考訳): 自己教師付き特徴を用いた音声感情認識
- Authors: Edmilson Morais, Ron Hoory, Weizhong Zhu, Itai Gat, Matheus Damasceno
and Hagai Aronowitz
- Abstract要約: 本稿では,アップストリーム+ダウンストリームアーキテクチャのパラダイムに基づくモジュール型エンド・ツー・エンド(E2E)SERシステムを提案する。
IEMOCAPデータセットからカテゴリ感情クラスを予測するためのSER実験が行われた。
提案したモノモーダル音声のみに基づくシステムは,SOTA結果を実現するとともに,強力かつきめ細かな自己教師付き音響特性の可能性にも光を当てる。
- 参考スコア(独自算出の注目度): 14.954994969217998
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Self-supervised pre-trained features have consistently delivered state-of-art
results in the field of natural language processing (NLP); however, their
merits in the field of speech emotion recognition (SER) still need further
investigation. In this paper we introduce a modular End-to- End (E2E) SER
system based on an Upstream + Downstream architecture paradigm, which allows
easy use/integration of a large variety of self-supervised features. Several
SER experiments for predicting categorical emotion classes from the IEMOCAP
dataset are performed. These experiments investigate interactions among
fine-tuning of self-supervised feature models, aggregation of frame-level
features into utterance-level features and back-end classification networks.
The proposed monomodal speechonly based system not only achieves SOTA results,
but also brings light to the possibility of powerful and well finetuned
self-supervised acoustic features that reach results similar to the results
achieved by SOTA multimodal systems using both Speech and Text modalities.
- Abstract(参考訳): 自己教師付き事前訓練された特徴は、自然言語処理(NLP)分野における最先端の成果を一貫して提供してきたが、音声感情認識(SER)分野におけるそれらのメリットは、いまだにさらなる調査が必要である。
本稿では,アップストリーム+ダウンストリームアーキテクチャのパラダイムに基づくモジュール型エンド・ツー・エンド(E2E)SERシステムを提案する。
IEMOCAPデータセットからカテゴリ感情クラスを予測するためのSER実験が行われた。
これらの実験は, 自己教師付き特徴モデルの微調整, フレームレベル特徴の発話レベル特徴への集約, バックエンド分類網間の相互作用について検討した。
提案する単調音声のみに基づくシステムは, sota結果を達成するだけでなく, 音声とテキストのモダリティを用いて, sotaマルチモーダルシステムによる結果に類似した, 強力で精細な自己教師あり音響的特徴量の可能性にも光を当てている。
関連論文リスト
- Unsupervised Representations Improve Supervised Learning in Speech
Emotion Recognition [1.3812010983144798]
本研究では,小さな音声セグメントからの感情認識のための自己教師付き特徴抽出と教師付き分類を統合した革新的なアプローチを提案する。
事前処理では,Wav2Vecモデルに基づく自己教師付き特徴抽出器を用いて音声データから音響特徴を抽出した。
次に、前処理ステップの出力特徴マップを、カスタム設計の畳み込みニューラルネットワーク(CNN)ベースのモデルに入力し、感情分類を行う。
論文 参考訳(メタデータ) (2023-09-22T08:54:06Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - VILAS: Exploring the Effects of Vision and Language Context in Automatic
Speech Recognition [18.19998336526969]
ViLaS(Vision and Language into Automatic Speech Recognition)は、CIF(Continuous Integration-and-fire)機構に基づく新しいマルチモーダルASRモデルである。
視覚と言語を統合することの効果を探るため、中国語と英語の両バージョンでマルチモーダルコンテキストキューを備えたマルチモーダルASRデータセットであるVSDialを開発した。
論文 参考訳(メタデータ) (2023-05-31T16:01:20Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - End-to-end spoken language understanding using transformer networks and
self-supervised pre-trained features [17.407912171579852]
トランスフォーマーネットワークと自己教師型事前学習は、自然言語処理(NLP)分野における最先端の成果を一貫して提供してきた。
本稿では,自己教師付き事前学習音響特徴の活用が可能なモジュール型End-to-End (E2E) SLUトランスフォーマーネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-16T19:30:52Z) - Jointly Fine-Tuning "BERT-like" Self Supervised Models to Improve
Multimodal Speech Emotion Recognition [9.099532309489996]
共同で調整した"BERTライク"なSSLアーキテクチャが、最新技術(SOTA)の成果をもたらすことを示す。
また、音声とテキストのモダリティを融合させる2つの手法を評価し、単純な融合機構がより複雑な手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-08-15T08:54:48Z) - A Dependency Syntactic Knowledge Augmented Interactive Architecture for
End-to-End Aspect-based Sentiment Analysis [73.74885246830611]
エンドツーエンドABSAのためのマルチタスク学習を用いた対話型アーキテクチャを新たに提案する。
このモデルは、よく設計された依存性関係埋め込みグラフ畳み込みネットワーク(DreGcn)を活用することで、構文知識(依存性関係と型)を完全に活用することができる。
3つのベンチマークデータセットの大規模な実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2020-04-04T14:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。