論文の概要: How Paralingual are Paralinguistic Representations? A Case Study in
Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2402.01579v1
- Date: Fri, 2 Feb 2024 17:17:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 14:01:01.945166
- Title: How Paralingual are Paralinguistic Representations? A Case Study in
Speech Emotion Recognition
- Title(参考訳): パラリンガルはいかにパラリンガル表現か?
音声感情認識における事例研究
- Authors: Orchid Chetia Phukan, Gautam Siddharth Kashyap, Arun Balaji Buduru,
Rajesh Sharma
- Abstract要約: 事前学習モデル(PTM)は、音声感情認識(SER)の分野で大きく進歩した。
近年の研究では、SERの下流モデルに対する入力特徴として様々なPTM表現を活用している。
TRILLsson表現は多言語データセット間の精度でSOTA性能を実現することを示す。
- 参考スコア(独自算出の注目度): 2.1506382989223782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained Models (PTMs) have facilitated substantial progress in the field
of Speech Emotion Recognition (SER). SER is an area with applications ranging
from HumanComputer Interaction to Healthcare. Recent studies have leveraged
various PTM representations as input features for downstream models for SER.
PTM specifically pre-trained for paralinguistic tasks have obtained
state-of-the-art (SOTA) performance for SER. However, such PTM haven't been
evaluated for SER in multilingual settings and experimented only with English.
So, we fill this gap, by performing a comprehensive comparative study of five
PTMs (TRILLsson, wav2vec2, XLS-R, x-vector, Whisper) for assessing the
effectiveness of paralingual PTM (TRILLsson) for SER across multiple languages.
Representations from TRILLsson achieved the best performance among all the
PTMs. This demonstrates that TRILLsson is able to effectively capture the
various paralinguistic features from speech data for better SER. We also show
that downstream models using TRILLsson representations achieve SOTA performance
in terms of accuracy across various multi-lingual datasets.
- Abstract(参考訳): 事前学習モデル (PTM) は, 音声感情認識 (SER) の分野で大きく進歩している。
SERはHumanComputer InteractionからHealthcareまで幅広い応用分野である。
近年の研究では、SERの下流モデルの入力特徴として様々なPTM表現を活用している。
パラ言語タスク用に特別に訓練されたPTMは、SERの最先端(SOTA)性能を得た。
しかし、そのようなPTMは多言語環境では評価されておらず、英語のみで実験した。
そこで我々は,複数の言語にまたがるサーに対する副言語的ptm (trillsson) の有効性を評価するために,5つのptm (trillsson, wav2vec2, xls-r, x-vector, whisper) の包括的比較研究を行った。
TRILLssonの表現は全てのPTMの中で最高のパフォーマンスを達成した。
これは、TRILLssonが音声データから様々なパラ言語的特徴を効果的に捉え、SERをより良くすることを示す。
また, TRILLsson表現を用いた下流モデルにより, 様々な多言語データセットの精度でSOTA性能が得られることを示す。
関連論文リスト
- UMETTS: A Unified Framework for Emotional Text-to-Speech Synthesis with Multimodal Prompts [64.02363948840333]
UMETTSは、複数のモーダルからの感情的手がかりを利用して、表現力が高く感情的に共鳴する音声を生成する新しいフレームワークである。
EP-Alignは対照的な学習を用いて、テキスト、オーディオ、視覚的モダリティをまたいだ感情的特徴を整合させ、マルチモーダル情報のコヒーレントな融合を保証する。
EMI-TTSは、アライメントされた感情埋め込みと最先端のTSモデルを統合し、意図した感情を正確に反映した音声を合成する。
論文 参考訳(メタデータ) (2024-04-29T03:19:39Z) - Leveraging Speech PTM, Text LLM, and Emotional TTS for Speech Emotion
Recognition [42.09340937787435]
本研究では,異なる音声教師付き事前学習モデルの表現能力について検討した。
我々は,感情的に一致したテキストと音声を生成するために,強力な大言語モデル (LLM), GPT-4, 感情的テキスト音声モデル (TTS) を使用した。
論文 参考訳(メタデータ) (2023-09-19T03:52:01Z) - Vesper: A Compact and Effective Pretrained Model for Speech Emotion Recognition [18.652763673725165]
本稿では,一般的な大規模事前学習モデル(PTM)を音声感情認識タスクに適用するパラダイムを提案する。
本稿では,Vesperという,感情固有の事前学習エンコーダを提案する。
ヴェスパーは、アコースティックおよびセマンティック表現をキャプチャする能力を改善するために階層的およびクロスレイヤーな自己スーパービジョンを使用している。
論文 参考訳(メタデータ) (2023-07-20T10:42:16Z) - A Comparative Study of Pre-trained Speech and Audio Embeddings for
Speech Emotion Recognition [0.0]
音声感情認識(SER)には、カスタマーコールの動的分析、メンタルヘルスアセスメント、パーソナライズされた言語学習など、幅広い応用がある。
事前学習されたモデル(PTM)は、音声と音声の領域において大きな可能性を秘めている。これらのモデルから活用された埋め込みは、様々な下流タスクにおけるアプリケーションによるアルゴリズム学習のインプットとして機能する。
本研究では,4つの音声感情データセット(CREMA-D,TESS,SAVEE,Emo-DB)を用いて3つのアルゴリズムを学習し,実験的な分析を行った。
本研究の結果から, 組込みを訓練したアルゴリズムにより, 最高の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-04-22T19:56:35Z) - How Does In-Context Learning Help Prompt Tuning? [55.78535874154915]
微調整された大きな言語モデルは、急速に拡大するスケールのために、ますます実用的ではないものになりつつある。
これはプロンプトチューニング(PT)のようなパラメータ効率のよい適応手法の使用を動機付け、凍ったモデルに少数のチューナブルな埋め込みを追加する。
近年,Singhalら (2022) はPTとICLを組み合わせた命令プロンプトチューニング (IPT) を提案している。
論文 参考訳(メタデータ) (2023-02-22T17:45:12Z) - Towards Disentangled Speech Representations [65.7834494783044]
本研究では, ASR と TTS の合同モデリングに基づく表現学習タスクを構築する。
本研究は,その部分の音声信号と,その部分の音声信号とをアンタングルする音声表現を学習することを目的とする。
我々は,これらの特性をトレーニング中に強化することにより,WERを平均24.5%向上させることを示す。
論文 参考訳(メタデータ) (2022-08-28T10:03:55Z) - Contextual Information and Commonsense Based Prompt for Emotion
Recognition in Conversation [14.651642872901496]
会話における感情認識(Emotion Recognition in conversation,ERC)は、ある会話における発話ごとの感情を検出することを目的としている。
近年のERCモデルは、事前学習と微調整のパラダイムを取り入れた事前学習言語モデル(PLM)を活用して、優れた性能を実現している。
本稿では,命令モデルと言語モデル(LM)チューニングの新しいパラダイムを取り入れた新しいERCモデルCISPERを提案する。
論文 参考訳(メタデータ) (2022-07-27T02:34:05Z) - Universal Paralinguistic Speech Representations Using Self-Supervised
Conformers [11.69906905163198]
我々は600M+パラメータのコンフォーマーに基づくアーキテクチャから派生した,最先端のパラ言語表現を提案する。
多様な音声タスクのベンチマークを行い、表現の上に訓練された単純な線形分類器が、ほとんどすべての過去の結果より優れていることを示す。
論文 参考訳(メタデータ) (2021-10-09T18:07:03Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。