論文の概要: Speech Emotion: Investigating Model Representations, Multi-Task Learning
and Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2207.03334v1
- Date: Sat, 2 Jul 2022 17:34:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-10 11:54:38.791983
- Title: Speech Emotion: Investigating Model Representations, Multi-Task Learning
and Knowledge Distillation
- Title(参考訳): 音声感情:モデル表現、マルチタスク学習、知識蒸留の研究
- Authors: Vikramjit Mitra, Hsiang-Yun Sherry Chien, Vasudha Kowtha, Joseph Yitan
Cheng, Erdrin Azemi
- Abstract要約: 音声信号から次元感情を推定することは困難である。
事前学習した音響モデルにより、音声の価値推定を改善することができることを示す。
我々は,現在最先端の「テキストフリー」音響のみの次元感情推定について報告する。
- 参考スコア(独自算出の注目度): 6.382013662443799
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Estimating dimensional emotions, such as activation, valence and dominance,
from acoustic speech signals has been widely explored over the past few years.
While accurate estimation of activation and dominance from speech seem to be
possible, the same for valence remains challenging. Previous research has shown
that the use of lexical information can improve valence estimation performance.
Lexical information can be obtained from pre-trained acoustic models, where the
learned representations can improve valence estimation from speech. We
investigate the use of pre-trained model representations to improve valence
estimation from acoustic speech signal. We also explore fusion of
representations to improve emotion estimation across all three emotion
dimensions: activation, valence and dominance. Additionally, we investigate if
representations from pre-trained models can be distilled into models trained
with low-level features, resulting in models with a less number of parameters.
We show that fusion of pre-trained model embeddings result in a 79% relative
improvement in concordance correlation coefficient CCC on valence estimation
compared to standard acoustic feature baseline (mel-filterbank energies), while
distillation from pre-trained model embeddings to lower-dimensional
representations yielded a relative 12% improvement. Such performance gains were
observed over two evaluation sets, indicating that our proposed architecture
generalizes across those evaluation sets. We report new state-of-the-art
"text-free" acoustic-only dimensional emotion estimation $CCC$ values on two
MSP-Podcast evaluation sets.
- Abstract(参考訳): 近年, 音声信号からのアクティベーション, 原子価, 優位性などの次元的感情の推定が盛んに行われている。
発話のアクティベーションと優位性の正確な推定は可能と思われるが、有能性は同じである。
従来の研究では、語彙情報を用いることで、値推定性能が向上することが示されている。
事前学習された音響モデルから語彙情報を得ることができ、学習された表現は音声からの原子価推定を改善することができる。
本研究では,事前学習したモデル表現を用いて音声信号の価値推定を改善する。
また,3つの感情の次元 – アクティベーション,原子価,支配 – にまたがる感情推定を改善するための表現の融合についても検討する。
さらに,事前学習されたモデルからの表現を低レベルの特徴を訓練したモデルに蒸留できるかどうかを検証し,パラメータの少ないモデルを生成する。
その結果, 標準音響特徴量ベースライン (mel-filterbank energies) と比較して, 結合相関係数 (ccc) が79%向上したのに対し, 予め学習したモデル埋め込みから低次元表現への蒸留は相対12%改善した。
このような性能向上は2つの評価セットで観察され,提案するアーキテクチャが評価セット全体に一般化していることを示している。
我々は,2つのmsp-podcast評価セットにおいて,音声のみの感情推定値である$ccc$を新たに設定した。
関連論文リスト
- Speechworthy Instruction-tuned Language Models [71.8586707840169]
提案手法は,学習の促進と嗜好の両面において,一般的な命令調整型LLMの音声適合性の向上を図っている。
我々は,各手法が生成した応答の音声適合性向上にどのように貢献するかを示すために,語彙的,構文的,定性的な分析を共有する。
論文 参考訳(メタデータ) (2024-09-23T02:34:42Z) - End-to-End Speech Recognition and Disfluency Removal with Acoustic
Language Model Pretraining [0.0]
2段階モデルとエンドツーエンドモデルのパフォーマンス比較を再考する。
弱自己教師対象を用いて事前訓練された音声ベース言語モデルは、同様に訓練された2段階モデルの性能に適合するか、超えていることがわかった。
論文 参考訳(メタデータ) (2023-09-08T17:12:14Z) - A study on the impact of Self-Supervised Learning on automatic dysarthric speech assessment [6.284142286798582]
以上の結果から,HuBERTは難聴分類,単語認識,インテリジェンス分類において最も汎用性の高い特徴抽出器であり,従来の音響特徴と比較して,それぞれ+24.7%,+61%,テキストおよび+7.2%の精度を実現していることがわかった。
論文 参考訳(メタデータ) (2023-06-07T11:04:02Z) - Pre-trained Model Representations and their Robustness against Noise for
Speech Emotion Analysis [6.382013662443799]
我々は、事前訓練されたモデルからのマルチモーダル融合表現を用いて、最先端の音声感情推定を生成する。
その結果,語彙表現は音響表現に比べて歪みに対して頑健であることが判明した。
論文 参考訳(メタデータ) (2023-03-03T18:22:32Z) - Ensemble knowledge distillation of self-supervised speech models [84.69577440755457]
蒸留自己監督モデルは近年、競争性能と効率性を示している。
We performed Ensemble Knowledge Distillation (EKD) on various self-supervised speech model, HuBERT, RobustHuBERT, WavLM。
提案手法は,4つの下流音声処理タスクにおける蒸留モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-02-24T17:15:39Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning [57.4036085386653]
文ペア分類タスクのプロンプトベースモデルでは,語彙重なりに基づく推論の一般的な落とし穴が依然として残っていることを示す。
そこで,プレトレーニングウェイトを保存する正規化を加えることは,この破壊的な微調整の傾向を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-09-09T10:10:29Z) - Layer-wise Analysis of a Self-supervised Speech Representation Model [26.727775920272205]
自己教師付き学習アプローチは、音声表現モデルの事前学習に成功している。
事前訓練された表現そのものに符号化された情報のタイプや範囲についてはあまり研究されていない。
論文 参考訳(メタデータ) (2021-07-10T02:13:25Z) - Unsupervised low-rank representations for speech emotion recognition [78.38221758430244]
音声感情認識のための低ランク特徴表現の抽出に線形および非線形次元削減アルゴリズムを用いて検討する。
異なる分類法を用いて2つのデータベース上で学習した表現の音声認識(SER)結果を報告する。
論文 参考訳(メタデータ) (2021-04-14T18:30:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。