論文の概要: Fusion approaches for emotion recognition from speech using acoustic and text-based features
- arxiv url: http://arxiv.org/abs/2403.18635v1
- Date: Wed, 27 Mar 2024 14:40:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 16:29:03.428375
- Title: Fusion approaches for emotion recognition from speech using acoustic and text-based features
- Title(参考訳): 音声とテキストを用いた音声からの感情認識のための融合手法
- Authors: Leonardo Pepino, Pablo Riera, Luciana Ferrer, Agustin Gravano,
- Abstract要約: 音声とテキストを用いた音声から感情を分類する手法について検討した。
音声とテキストのモダリティを組み合わせる戦略を比較し,IEMOCAPとMPP-PODCASTデータセット上で評価する。
IEMOCAPでは,クロスバリデーション・フォールドの定義に使用される基準が結果に大きく影響していることを示す。
- 参考スコア(独自算出の注目度): 15.186937600119897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study different approaches for classifying emotions from speech using acoustic and text-based features. We propose to obtain contextualized word embeddings with BERT to represent the information contained in speech transcriptions and show that this results in better performance than using Glove embeddings. We also propose and compare different strategies to combine the audio and text modalities, evaluating them on IEMOCAP and MSP-PODCAST datasets. We find that fusing acoustic and text-based systems is beneficial on both datasets, though only subtle differences are observed across the evaluated fusion approaches. Finally, for IEMOCAP, we show the large effect that the criteria used to define the cross-validation folds have on results. In particular, the standard way of creating folds for this dataset results in a highly optimistic estimation of performance for the text-based system, suggesting that some previous works may overestimate the advantage of incorporating transcriptions.
- Abstract(参考訳): 本稿では,音声とテキストによる特徴量を用いた音声からの感情の分類手法について検討する。
本稿では,BERT を用いた文脈的単語埋め込みを行い,音声の書き起こしに含まれる情報を表現し,Glove の埋め込みよりも優れた性能を示す。
また,IEMOCAPとMPP-PODCASTデータセットを用いて,音声とテキストのモダリティを組み合わせるための異なる戦略を提案し,比較する。
評価された融合アプローチ間では微妙な差異しか観測されていないが, 両方のデータセットにおいて, 融合音響系とテキストベース系が有用であることが判明した。
最後に、IEMOCAPでは、クロスバリデーションの折り畳みを定義するために使われる基準が結果に大きく影響することを示す。
特に、このデータセットのフォールドを作成する標準的な方法は、テキストベースのシステムの性能を非常に楽観的に推定する結果となり、いくつかの以前の研究が転写を組み込むことの利点を過大評価する可能性があることを示唆している。
関連論文リスト
- Layer-Wise Analysis of Self-Supervised Acoustic Word Embeddings: A Study
on Speech Emotion Recognition [54.952250732643115]
連続表現から派生した長さの固定長特徴である音響単語埋め込み(AWE)について検討し,その利点について検討した。
AWEは以前、音響的識別可能性の把握に有用であることを示した。
以上の結果から,AWEが伝達する音響的文脈が明らかになり,高い競争力を持つ音声認識精度が示された。
論文 参考訳(メタデータ) (2024-02-04T21:24:54Z) - Text-Only Domain Adaptation for End-to-End Speech Recognition through
Down-Sampling Acoustic Representation [67.98338382984556]
音声とテキストの2つのモダリティを共有表現空間にマッピングすることは、テキストのみのデータを用いて、新しいドメインにおけるエンドツーエンドの自動音声認識(ASR)の性能を改善する研究トピックである。
本稿では,テキストのモダリティに合わせるために,ダウンサンプリング音響表現を用いた新しい表現手法を提案する。
我々のASRモデルは、両方のモダリティから統一表現をよりよく学習することができ、ターゲットドメインのテキストのみのデータを用いたドメイン適応を可能にします。
論文 参考訳(メタデータ) (2023-09-04T08:52:59Z) - Advancing Natural-Language Based Audio Retrieval with PaSST and Large
Audio-Caption Data Sets [6.617487928813374]
本稿では,事前学習されたテキストとスペクトログラム変換器に基づく音声検索システムを提案する。
我々のシステムは2023年のDCASE Challengeで第1位にランクされ、ClosoV2ベンチマークでは5.6 pp. mAP@10で最先端の技術を上回りました。
論文 参考訳(メタデータ) (2023-08-08T13:46:55Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Towards Selection of Text-to-speech Data to Augment ASR Training [20.115236045164355]
ニューラルネットワークをトレーニングして、合成データの実際の音声との類似性を計測する。
音声認識性能を高めるためには, 実音声とはかなりの相似性を持つ合成サンプルを組み込むことが重要である。
論文 参考訳(メタデータ) (2023-05-30T17:24:28Z) - Feature Selection Enhancement and Feature Space Visualization for
Speech-Based Emotion Recognition [2.223733768286313]
音声の感情認識を改善する音声特徴強調戦略を提案する。
この戦略は、文学で使われている最先端の手法と比較される。
EMO-DBデータセットでは7つの感情のうち6つの感情のうち11.5%、RAVDESSデータセットでは8つの感情のうち7つの感情のうち13.8%が認識された。
論文 参考訳(メタデータ) (2022-08-19T11:29:03Z) - Text-Aware End-to-end Mispronunciation Detection and Diagnosis [17.286013739453796]
誤認識検出・診断(MDD)技術はコンピュータ支援発音訓練システム(CAPT)の鍵となる要素である
本稿では,関係のないテキスト情報を抑えつつ,関連する音声特徴をより重要視するゲーティング戦略を提案する。
論文 参考訳(メタデータ) (2022-06-15T04:08:10Z) - Audio-text Retrieval in Context [24.38055340045366]
そこで本研究では,音声・テキストのアライメントを改善するために,複数のオーディオ機能とシーケンスアグリゲーション手法について検討する。
我々は,事前学習した音声特徴と記述子に基づくアグリゲーション法を用いた文脈音声テキスト検索システムを構築した。
提案システムでは、リコール、中央値、平均値を含むすべての指標において、双方向音声テキスト検索において顕著な改善が達成されている。
論文 参考訳(メタデータ) (2022-03-25T13:41:17Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。