Fugu-MT 論文翻訳(概要): Speech Emotion Recognition using Self-Supervised Features

論文の概要: Speech Emotion Recognition using Self-Supervised Features

arxiv url: http://arxiv.org/abs/2202.03896v1
Date: Mon, 7 Feb 2022 00:50:07 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-09 15:04:51.609396
Title: Speech Emotion Recognition using Self-Supervised Features
Title（参考訳）: 自己教師付き特徴を用いた音声感情認識
Authors: Edmilson Morais, Ron Hoory, Weizhong Zhu, Itai Gat, Matheus Damasceno and Hagai Aronowitz
Abstract要約: 本稿では,アップストリーム+ダウンストリームアーキテクチャのパラダイムに基づくモジュール型エンド・ツー・エンド(E2E)SERシステムを提案する。 IEMOCAPデータセットからカテゴリ感情クラスを予測するためのSER実験が行われた。提案したモノモーダル音声のみに基づくシステムは,SOTA結果を実現するとともに,強力かつきめ細かな自己教師付き音響特性の可能性にも光を当てる。
参考スコア（独自算出の注目度）: 14.954994969217998
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Self-supervised pre-trained features have consistently delivered state-of-art results in the field of natural language processing (NLP); however, their merits in the field of speech emotion recognition (SER) still need further investigation. In this paper we introduce a modular End-to- End (E2E) SER system based on an Upstream + Downstream architecture paradigm, which allows easy use/integration of a large variety of self-supervised features. Several SER experiments for predicting categorical emotion classes from the IEMOCAP dataset are performed. These experiments investigate interactions among fine-tuning of self-supervised feature models, aggregation of frame-level features into utterance-level features and back-end classification networks. The proposed monomodal speechonly based system not only achieves SOTA results, but also brings light to the possibility of powerful and well finetuned self-supervised acoustic features that reach results similar to the results achieved by SOTA multimodal systems using both Speech and Text modalities.
Abstract（参考訳）: 自己教師付き事前訓練された特徴は、自然言語処理(NLP)分野における最先端の成果を一貫して提供してきたが、音声感情認識(SER)分野におけるそれらのメリットは、いまだにさらなる調査が必要である。本稿では,アップストリーム+ダウンストリームアーキテクチャのパラダイムに基づくモジュール型エンド・ツー・エンド(E2E)SERシステムを提案する。 IEMOCAPデータセットからカテゴリ感情クラスを予測するためのSER実験が行われた。これらの実験は, 自己教師付き特徴モデルの微調整, フレームレベル特徴の発話レベル特徴への集約, バックエンド分類網間の相互作用について検討した。提案する単調音声のみに基づくシステムは, sota結果を達成するだけでなく, 音声とテキストのモダリティを用いて, sotaマルチモーダルシステムによる結果に類似した, 強力で精細な自己教師あり音響的特徴量の可能性にも光を当てている。

関連論文リスト

Speech Quality Assessment Model Based on Mixture of Experts: System-Level Performance Enhancement and Utterance-Level Challenge Analysis [3.7818013031679683]
本稿では,自己教師付き学習音声モデルに基づくMOS予測システムを提案する。提案手法はwav2vec2のような既存の自己教師型モデルに基づいて構築され,様々な種類の音声品質評価タスクに対処する専用のMoEアーキテクチャを設計する。 MoEアーキテクチャと拡張データセットの採用にもかかわらず、文レベルの予測タスクのパフォーマンス改善は限定的のままである。
論文参考訳（メタデータ） (2025-07-08T16:00:13Z)
Qieemo: Speech Is All You Need in the Emotion Recognition in Conversations [1.0690007351232649]
マルチモーダルアプローチは多様なモダリティの融合による恩恵を受け、認識精度が向上する。提案するQieemoフレームワークは,自然なフレームアライメントと感情的特徴を含む事前学習された自動音声認識(ASR)モデルを効果的に活用する。 IEMOCAPデータセットの実験結果は、Qieemoがそれぞれ3.0%、1.2%、および1.9%の絶対的な改善でベンチマークアンモダル、マルチモーダル、セルフ教師付きモデルを上回っていることを示している。
論文参考訳（メタデータ） (2025-03-05T07:02:30Z)
MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文参考訳（メタデータ） (2024-11-27T09:01:08Z)
The OCON model: an old but green solution for distributable supervised classification for acoustic monitoring in smart cities [0.28675177318965045]
本稿では,音声認識領域における母音音素分類と話者認識について述べる。われわれのケーススタディでは、ASRモデルは独自のセンシングと稲妻システムで動作し、都市部における大気汚染の監視に利用されている。情報グリッド探索手法を用いて,疑似ニューラルアーキテクチャ探索とハイパースチューニング実験の組み合わせを形式化し,現在最も複雑なアーキテクチャに匹敵する分類精度を実現する。
論文参考訳（メタデータ） (2024-10-05T09:47:54Z)
Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文参考訳（メタデータ） (2024-09-30T07:01:21Z)
Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
SIMAは、自己改善を通じて視覚的および言語的モダリティアライメントを強化するフレームワークである。コンテキスト内自己批判機構を使用して、プライオリティチューニングのためのレスポンスペアを選択する。 SIMAは従来の手法よりも優れたモダリティアライメントを実現することを実証する。
論文参考訳（メタデータ） (2024-05-24T23:09:27Z)
Unsupervised Representations Improve Supervised Learning in Speech Emotion Recognition [1.3812010983144798]
本研究では,小さな音声セグメントからの感情認識のための自己教師付き特徴抽出と教師付き分類を統合した革新的なアプローチを提案する。事前処理では,Wav2Vecモデルに基づく自己教師付き特徴抽出器を用いて音声データから音響特徴を抽出した。次に、前処理ステップの出力特徴マップを、カスタム設計の畳み込みニューラルネットワーク(CNN)ベースのモデルに入力し、感情分類を行う。
論文参考訳（メタデータ） (2023-09-22T08:54:06Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
VILAS: Exploring the Effects of Vision and Language Context in Automatic Speech Recognition [18.19998336526969]
ViLaS(Vision and Language into Automatic Speech Recognition)は、CIF(Continuous Integration-and-fire)機構に基づく新しいマルチモーダルASRモデルである。視覚と言語を統合することの効果を探るため、中国語と英語の両バージョンでマルチモーダルコンテキストキューを備えたマルチモーダルASRデータセットであるVSDialを開発した。
論文参考訳（メタデータ） (2023-05-31T16:01:20Z)
Versatile audio-visual learning for emotion recognition [28.26077129002198]
本研究では,非モーダル・マルチモーダルシステムを扱うための多目的音声視覚学習フレームワークを提案する。我々は,この効果的な表現学習を,音声-視覚的共有層,共有層上の残差接続,および非モーダル再構成タスクで実現した。特に、VAVLは、MSP-IMPROVコーパスの感情予測タスクにおいて、新しい最先端のパフォーマンスを得る。
論文参考訳（メタデータ） (2023-05-12T03:13:37Z)
Multimodal Emotion Recognition using Transfer Learning from Speaker Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文参考訳（メタデータ） (2022-02-16T00:23:42Z)
An Exploration of Self-Supervised Pretrained Representations for End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文参考訳（メタデータ） (2021-10-09T15:06:09Z)
Jointly Fine-Tuning "BERT-like" Self Supervised Models to Improve Multimodal Speech Emotion Recognition [9.099532309489996]
共同で調整した"BERTライク"なSSLアーキテクチャが、最新技術(SOTA)の成果をもたらすことを示す。また、音声とテキストのモダリティを融合させる2つの手法を評価し、単純な融合機構がより複雑な手法よりも優れていることを示す。
論文参考訳（メタデータ） (2020-08-15T08:54:48Z)
A Dependency Syntactic Knowledge Augmented Interactive Architecture for End-to-End Aspect-based Sentiment Analysis [73.74885246830611]
エンドツーエンドABSAのためのマルチタスク学習を用いた対話型アーキテクチャを新たに提案する。このモデルは、よく設計された依存性関係埋め込みグラフ畳み込みネットワーク(DreGcn)を活用することで、構文知識(依存性関係と型)を完全に活用することができる。 3つのベンチマークデータセットの大規模な実験結果から,本手法の有効性が示された。
論文参考訳（メタデータ） (2020-04-04T14:59:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。