論文の概要: Fusion approaches for emotion recognition from speech using acoustic and text-based features
- arxiv url: http://arxiv.org/abs/2403.18635v1
- Date: Wed, 27 Mar 2024 14:40:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 16:29:03.428375
- Title: Fusion approaches for emotion recognition from speech using acoustic and text-based features
- Title(参考訳): 音声とテキストを用いた音声からの感情認識のための融合手法
- Authors: Leonardo Pepino, Pablo Riera, Luciana Ferrer, Agustin Gravano,
- Abstract要約: 音声とテキストを用いた音声から感情を分類する手法について検討した。
音声とテキストのモダリティを組み合わせる戦略を比較し,IEMOCAPとMPP-PODCASTデータセット上で評価する。
IEMOCAPでは,クロスバリデーション・フォールドの定義に使用される基準が結果に大きく影響していることを示す。
- 参考スコア(独自算出の注目度): 15.186937600119897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study different approaches for classifying emotions from speech using acoustic and text-based features. We propose to obtain contextualized word embeddings with BERT to represent the information contained in speech transcriptions and show that this results in better performance than using Glove embeddings. We also propose and compare different strategies to combine the audio and text modalities, evaluating them on IEMOCAP and MSP-PODCAST datasets. We find that fusing acoustic and text-based systems is beneficial on both datasets, though only subtle differences are observed across the evaluated fusion approaches. Finally, for IEMOCAP, we show the large effect that the criteria used to define the cross-validation folds have on results. In particular, the standard way of creating folds for this dataset results in a highly optimistic estimation of performance for the text-based system, suggesting that some previous works may overestimate the advantage of incorporating transcriptions.
- Abstract(参考訳): 本稿では,音声とテキストによる特徴量を用いた音声からの感情の分類手法について検討する。
本稿では,BERT を用いた文脈的単語埋め込みを行い,音声の書き起こしに含まれる情報を表現し,Glove の埋め込みよりも優れた性能を示す。
また,IEMOCAPとMPP-PODCASTデータセットを用いて,音声とテキストのモダリティを組み合わせるための異なる戦略を提案し,比較する。
評価された融合アプローチ間では微妙な差異しか観測されていないが, 両方のデータセットにおいて, 融合音響系とテキストベース系が有用であることが判明した。
最後に、IEMOCAPでは、クロスバリデーションの折り畳みを定義するために使われる基準が結果に大きく影響することを示す。
特に、このデータセットのフォールドを作成する標準的な方法は、テキストベースのシステムの性能を非常に楽観的に推定する結果となり、いくつかの以前の研究が転写を組み込むことの利点を過大評価する可能性があることを示唆している。
関連論文リスト
- Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback [50.84142264245052]
テキストレス音声言語モデル(SLM)のセマンティック理解を強化するためのAlign-SLMフレームワークを導入する。
提案手法は、与えられたプロンプトから複数の音声継続を生成し、意味的指標を用いて、直接選好最適化(DPO)のための選好データを生成する。
語彙および構文モデリングのためのZeroSpeech 2021ベンチマーク、意味的コヒーレンスのためのStoryClozeデータセットの音声バージョン、GPT4-oスコアや人間評価などの音声生成指標を用いて、フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-11-04T06:07:53Z) - Grammar Induction from Visual, Speech and Text [91.98797120799227]
本研究は、新しい視覚音声テキスト文法誘導タスク(textbfVAT-GI)を導入する。
言語文法がテキストを超えて存在するという事実に触発されて、テキストは文法帰納において支配的なモダリティであってはならないと論じる。
そこで本稿では,豊富なモーダル特化機能と補完機能を有効文法解析に活用した,ビジュアル・オーディオ・テキスト・インサイド・アウトサイド・オートエンコーダ(textbfVaTiora)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-01T02:24:18Z) - Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - Textless Dependency Parsing by Labeled Sequence Prediction [18.32371054754222]
自動音声認識システムなしで音声表現を処理する「テキストレス」手法
提案手法は,木をラベル付きシーケンスとして表現し,音声信号から係り受け木を予測する。
本研究は,解析性能を高めるために,単語レベルの表現と文レベルの韻律を融合させることの重要性を強調した。
論文 参考訳(メタデータ) (2024-07-14T08:38:14Z) - An efficient text augmentation approach for contextualized Mandarin speech recognition [4.600045052545344]
本研究は、テキストのみのデータセットを活用し、事前学習されたASRモデルを文脈化することを提案する。
事前学習したCIFベースのASRを文脈化するために,限られた音声テキストデータを用いたコードブックを構築した。
多様なマンダリンテストセットに対する実験により,我々のTAアプローチは認識性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-06-14T11:53:14Z) - Layer-Wise Analysis of Self-Supervised Acoustic Word Embeddings: A Study
on Speech Emotion Recognition [54.952250732643115]
連続表現から派生した長さの固定長特徴である音響単語埋め込み(AWE)について検討し,その利点について検討した。
AWEは以前、音響的識別可能性の把握に有用であることを示した。
以上の結果から,AWEが伝達する音響的文脈が明らかになり,高い競争力を持つ音声認識精度が示された。
論文 参考訳(メタデータ) (2024-02-04T21:24:54Z) - Text-Only Domain Adaptation for End-to-End Speech Recognition through
Down-Sampling Acoustic Representation [67.98338382984556]
音声とテキストの2つのモダリティを共有表現空間にマッピングすることは、テキストのみのデータを用いて、新しいドメインにおけるエンドツーエンドの自動音声認識(ASR)の性能を改善する研究トピックである。
本稿では,テキストのモダリティに合わせるために,ダウンサンプリング音響表現を用いた新しい表現手法を提案する。
我々のASRモデルは、両方のモダリティから統一表現をよりよく学習することができ、ターゲットドメインのテキストのみのデータを用いたドメイン適応を可能にします。
論文 参考訳(メタデータ) (2023-09-04T08:52:59Z) - Advancing Natural-Language Based Audio Retrieval with PaSST and Large
Audio-Caption Data Sets [6.617487928813374]
本稿では,事前学習されたテキストとスペクトログラム変換器に基づく音声検索システムを提案する。
我々のシステムは2023年のDCASE Challengeで第1位にランクされ、ClosoV2ベンチマークでは5.6 pp. mAP@10で最先端の技術を上回りました。
論文 参考訳(メタデータ) (2023-08-08T13:46:55Z) - Text-Aware End-to-end Mispronunciation Detection and Diagnosis [17.286013739453796]
誤認識検出・診断(MDD)技術はコンピュータ支援発音訓練システム(CAPT)の鍵となる要素である
本稿では,関係のないテキスト情報を抑えつつ,関連する音声特徴をより重要視するゲーティング戦略を提案する。
論文 参考訳(メタデータ) (2022-06-15T04:08:10Z) - Audio-text Retrieval in Context [24.38055340045366]
そこで本研究では,音声・テキストのアライメントを改善するために,複数のオーディオ機能とシーケンスアグリゲーション手法について検討する。
我々は,事前学習した音声特徴と記述子に基づくアグリゲーション法を用いた文脈音声テキスト検索システムを構築した。
提案システムでは、リコール、中央値、平均値を含むすべての指標において、双方向音声テキスト検索において顕著な改善が達成されている。
論文 参考訳(メタデータ) (2022-03-25T13:41:17Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。