論文の概要: How Paralingual are Paralinguistic Representations? A Case Study in
Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2402.01579v1
- Date: Fri, 2 Feb 2024 17:17:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 14:01:01.945166
- Title: How Paralingual are Paralinguistic Representations? A Case Study in
Speech Emotion Recognition
- Title(参考訳): パラリンガルはいかにパラリンガル表現か?
音声感情認識における事例研究
- Authors: Orchid Chetia Phukan, Gautam Siddharth Kashyap, Arun Balaji Buduru,
Rajesh Sharma
- Abstract要約: 事前学習モデル(PTM)は、音声感情認識(SER)の分野で大きく進歩した。
近年の研究では、SERの下流モデルに対する入力特徴として様々なPTM表現を活用している。
TRILLsson表現は多言語データセット間の精度でSOTA性能を実現することを示す。
- 参考スコア(独自算出の注目度): 2.1506382989223782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained Models (PTMs) have facilitated substantial progress in the field
of Speech Emotion Recognition (SER). SER is an area with applications ranging
from HumanComputer Interaction to Healthcare. Recent studies have leveraged
various PTM representations as input features for downstream models for SER.
PTM specifically pre-trained for paralinguistic tasks have obtained
state-of-the-art (SOTA) performance for SER. However, such PTM haven't been
evaluated for SER in multilingual settings and experimented only with English.
So, we fill this gap, by performing a comprehensive comparative study of five
PTMs (TRILLsson, wav2vec2, XLS-R, x-vector, Whisper) for assessing the
effectiveness of paralingual PTM (TRILLsson) for SER across multiple languages.
Representations from TRILLsson achieved the best performance among all the
PTMs. This demonstrates that TRILLsson is able to effectively capture the
various paralinguistic features from speech data for better SER. We also show
that downstream models using TRILLsson representations achieve SOTA performance
in terms of accuracy across various multi-lingual datasets.
- Abstract(参考訳): 事前学習モデル (PTM) は, 音声感情認識 (SER) の分野で大きく進歩している。
SERはHumanComputer InteractionからHealthcareまで幅広い応用分野である。
近年の研究では、SERの下流モデルの入力特徴として様々なPTM表現を活用している。
パラ言語タスク用に特別に訓練されたPTMは、SERの最先端(SOTA)性能を得た。
しかし、そのようなPTMは多言語環境では評価されておらず、英語のみで実験した。
そこで我々は,複数の言語にまたがるサーに対する副言語的ptm (trillsson) の有効性を評価するために,5つのptm (trillsson, wav2vec2, xls-r, x-vector, whisper) の包括的比較研究を行った。
TRILLssonの表現は全てのPTMの中で最高のパフォーマンスを達成した。
これは、TRILLssonが音声データから様々なパラ言語的特徴を効果的に捉え、SERをより良くすることを示す。
また, TRILLsson表現を用いた下流モデルにより, 様々な多言語データセットの精度でSOTA性能が得られることを示す。
関連論文リスト
- Multilingual Turn-taking Prediction Using Voice Activity Projection [25.094622033971643]
本稿では,音声対話における音声活動予測モデルである音声活動予測(VAP)の多言語データへの適用について検討する。
その結果, ある言語で訓練された単言語VAPモデルでは, 他の言語に適用してもよい予測が得られないことが示唆された。
3つの言語すべてでトレーニングされた多言語モデルは、すべての言語にわたるモノリンガルモデルと同等の予測性能を示す。
論文 参考訳(メタデータ) (2024-03-11T07:50:29Z) - Self-supervised Adaptive Pre-training of Multilingual Speech Models for
Language and Dialect Identification [19.893213508284813]
目標領域や下流タスクの言語に事前学習モデルを適用するために,自己教師付き適応型事前学習を提案する。
SPTはFLEURSベンチマークのXLSR性能を向上し、表現不足言語では40.1%まで向上することを示した。
論文 参考訳(メタデータ) (2023-12-12T14:58:08Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning:
Insights and Observations [90.73517523001149]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
翻訳を利用して,最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
我々は、MathOctopusという名の強力なxMR LLMを構築するための異なるトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - A Comparative Study of Pre-trained Speech and Audio Embeddings for
Speech Emotion Recognition [0.0]
音声感情認識(SER)には、カスタマーコールの動的分析、メンタルヘルスアセスメント、パーソナライズされた言語学習など、幅広い応用がある。
事前学習されたモデル(PTM)は、音声と音声の領域において大きな可能性を秘めている。これらのモデルから活用された埋め込みは、様々な下流タスクにおけるアプリケーションによるアルゴリズム学習のインプットとして機能する。
本研究では,4つの音声感情データセット(CREMA-D,TESS,SAVEE,Emo-DB)を用いて3つのアルゴリズムを学習し,実験的な分析を行った。
本研究の結果から, 組込みを訓練したアルゴリズムにより, 最高の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-04-22T19:56:35Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。