論文の概要: Burst2Vec: An Adversarial Multi-Task Approach for Predicting Emotion,
Age, and Origin from Vocal Bursts
- arxiv url: http://arxiv.org/abs/2206.12469v1
- Date: Fri, 24 Jun 2022 18:57:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 15:51:46.349869
- Title: Burst2Vec: An Adversarial Multi-Task Approach for Predicting Emotion,
Age, and Origin from Vocal Bursts
- Title(参考訳): Burst2Vec:声帯バーストからの感情・年齢・起源を予測するための逆マルチタスクアプローチ
- Authors: Atijit Anuchitanukul and Lucia Specia
- Abstract要約: Burst2Vecは、事前訓練された音声表現を使用して、生波形から音響情報をキャプチャする。
提案モデルでは,事前抽出した特徴を用いて,ベースラインよりも30%の性能向上を実現している。
- 参考スコア(独自算出の注目度): 49.31604138034298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Burst2Vec, our multi-task learning approach to predict emotion,
age, and origin (i.e., native country/language) from vocal bursts. Burst2Vec
utilises pre-trained speech representations to capture acoustic information
from raw waveforms and incorporates the concept of model debiasing via
adversarial training. Our models achieve a relative 30 % performance gain over
baselines using pre-extracted features and score the highest amongst all
participants in the ICML ExVo 2022 Multi-Task Challenge.
- Abstract(参考訳): ボーカルバーストから感情、年齢、起源(すなわち母国/言語)を予測するマルチタスク学習アプローチであるBurst2Vecを紹介します。
Burst2Vecは、事前訓練された音声表現を利用して生の波形から音響情報をキャプチャし、対向訓練によるモデルデバイアスの概念を取り入れている。
ICML ExVo 2022 Multi-Task Challengeの参加者の中では, 事前抽出した特徴を用いて, ベースラインに対する相対的な30%の性能向上を達成した。
関連論文リスト
- A Comparative Study of Pre-trained Speech and Audio Embeddings for
Speech Emotion Recognition [0.0]
音声感情認識(SER)には、カスタマーコールの動的分析、メンタルヘルスアセスメント、パーソナライズされた言語学習など、幅広い応用がある。
事前学習されたモデル(PTM)は、音声と音声の領域において大きな可能性を秘めている。これらのモデルから活用された埋め込みは、様々な下流タスクにおけるアプリケーションによるアルゴリズム学習のインプットとして機能する。
本研究では,4つの音声感情データセット(CREMA-D,TESS,SAVEE,Emo-DB)を用いて3つのアルゴリズムを学習し,実験的な分析を行った。
本研究の結果から, 組込みを訓練したアルゴリズムにより, 最高の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-04-22T19:56:35Z) - Pre-Finetuning for Few-Shot Emotional Speech Recognition [20.894029832911617]
我々は話者適応を数発の学習問題と見なしている。
そこで本研究では,知識を数発の下流分類対象に抽出する難解な課題に対する事前学習音声モデルを提案する。
論文 参考訳(メタデータ) (2023-02-24T22:38:54Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - An Efficient Multitask Learning Architecture for Affective Vocal Burst
Analysis [1.2951621755732543]
感情的発声解析への現在のアプローチは、主にwav2vec2 や HuBERT の特徴に基づいている。
本稿では,wav2vecの後継データ2vecとマルチタスク学習パイプラインを組み合わせることで,異なる解析問題に一度に対処する方法について検討する。
効率的なマルチタスク学習アーキテクチャの性能を評価するため,2022年のACII Affective Vocal Burst Challengeに参加した。
論文 参考訳(メタデータ) (2022-09-28T08:32:08Z) - Multitask vocal burst modeling with ResNets and pre-trained
paralinguistic Conformers [11.682025726705122]
本稿では、ICML Expressive Vocalizations Workshop & Competition multitask track(ExVo-MultiTask)への提出時に用いたモデリング手法について述べる。
まず,音声バーストのメル・スペクトログラム表現に様々な大きさの画像分類モデルを適用した。
これらのモデルから、タスクメトリクスの調和平均に関して、ベースラインシステムの21.24%の増加が示されている。
論文 参考訳(メタデータ) (2022-06-24T21:42:16Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - Transferring Voice Knowledge for Acoustic Event Detection: An Empirical
Study [11.825240267691209]
本稿では,話者データセットから抽出した高レベル音声表現を伝達して,音響イベント検出パイプラインを強化する可能性について検討する。
AEDプロセス中に音声と音響の特徴を共同学習するためのデュアルブランチニューラルネットワークアーキテクチャを開発した。
論文 参考訳(メタデータ) (2021-10-07T04:03:21Z) - Voice2Series: Reprogramming Acoustic Models for Time Series
Classification [65.94154001167608]
Voice2Seriesは、時系列分類のための音響モデルをプログラムする新しいエンドツーエンドアプローチである。
V2Sは20のタスクで性能が優れるか、最先端のメソッドと結びついているかを示し、平均精度を1.84%向上させる。
論文 参考訳(メタデータ) (2021-06-17T07:59:15Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。