論文の概要: Pre-trained Model Representations and their Robustness against Noise for
Speech Emotion Analysis
- arxiv url: http://arxiv.org/abs/2303.03177v1
- Date: Fri, 3 Mar 2023 18:22:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 15:46:21.222383
- Title: Pre-trained Model Representations and their Robustness against Noise for
Speech Emotion Analysis
- Title(参考訳): 音声感情分析のための事前学習モデル表現とその雑音に対するロバスト性
- Authors: Vikramjit Mitra, Vasudha Kowtha, Hsiang-Yun Sherry Chien, Erdrin
Azemi, Carlos Avendano
- Abstract要約: 我々は、事前訓練されたモデルからのマルチモーダル融合表現を用いて、最先端の音声感情推定を生成する。
その結果,語彙表現は音響表現に比べて歪みに対して頑健であることが判明した。
- 参考スコア(独自算出の注目度): 6.382013662443799
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained model representations have demonstrated state-of-the-art
performance in speech recognition, natural language processing, and other
applications. Speech models, such as Bidirectional Encoder Representations from
Transformers (BERT) and Hidden units BERT (HuBERT), have enabled generating
lexical and acoustic representations to benefit speech recognition
applications. We investigated the use of pre-trained model representations for
estimating dimensional emotions, such as activation, valence, and dominance,
from speech. We observed that while valence may rely heavily on lexical
representations, activation and dominance rely mostly on acoustic information.
In this work, we used multi-modal fusion representations from pre-trained
models to generate state-of-the-art speech emotion estimation, and we showed a
100% and 30% relative improvement in concordance correlation coefficient (CCC)
on valence estimation compared to standard acoustic and lexical baselines.
Finally, we investigated the robustness of pre-trained model representations
against noise and reverberation degradation and noticed that lexical and
acoustic representations are impacted differently. We discovered that lexical
representations are more robust to distortions compared to acoustic
representations, and demonstrated that knowledge distillation from a
multi-modal model helps to improve the noise-robustness of acoustic-based
models.
- Abstract(参考訳): 事前訓練されたモデル表現は、音声認識、自然言語処理、その他の応用において最先端の性能を示している。
変換器からの双方向エンコーダ表現 (BERT) や隠れユニットBERT (HuBERT) のような音声モデルは、音声認識の応用のために語彙的および音響的表現を生成することができる。
音声からアクティベーション,ヴァレンス,支配といった次元的感情を推定するために,事前学習したモデル表現を用いた。
原子価は語彙表現に大きく依存するが、アクティベーションと支配は主に音響情報に依存している。
本研究では,事前学習したモデルからのマルチモーダル融合表現を用いて,最先端の音声感情推定を行い,標準音響および語彙ベースラインと比較して,一致相関係数(CCC)の100%および30%の相対的な改善を示した。
最後に,事前学習したモデル表現の雑音や残響劣化に対するロバスト性について検討し,語彙表現と音響表現の違いに気付いた。
語彙表現は音響表現と比較して歪みに強いことが分かり,マルチモーダルモデルからの知識蒸留が音響モデルにおけるノイズ・ロバスト性の向上に役立つことを示した。
関連論文リスト
- Incorporating Talker Identity Aids With Improving Speech Recognition in Adversarial Environments [0.2916558661202724]
音声認識と話者識別を共同で行うトランスフォーマーモデルを開発した。
クリーンな条件下では,ジョイントモデルがWhisperと相容れない性能を示す。
以上の結果から,音声認識と音声表現の統合により,対向条件下ではより堅牢なモデルが得られる可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-07T18:39:59Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Probing self-supervised speech models for phonetic and phonemic
information: a case study in aspiration [17.94683764469626]
我々は,これらのモデルの学習表現が,人間による基本的な表現区別とどのように一致しているかを評価する。
これらのモデルのアーキテクチャの初期層には、音韻と音韻の区別の堅牢な表現が出現している。
以上の結果から,HuBERTは抽象音韻的区別に対応する低雑音・低次元部分空間を導出することがわかった。
論文 参考訳(メタデータ) (2023-06-09T20:07:22Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - Towards Disentangled Speech Representations [65.7834494783044]
本研究では, ASR と TTS の合同モデリングに基づく表現学習タスクを構築する。
本研究は,その部分の音声信号と,その部分の音声信号とをアンタングルする音声表現を学習することを目的とする。
我々は,これらの特性をトレーニング中に強化することにより,WERを平均24.5%向上させることを示す。
論文 参考訳(メタデータ) (2022-08-28T10:03:55Z) - Speech Emotion: Investigating Model Representations, Multi-Task Learning
and Knowledge Distillation [6.382013662443799]
音声信号から次元感情を推定することは困難である。
事前学習した音響モデルにより、音声の価値推定を改善することができることを示す。
我々は,現在最先端の「テキストフリー」音響のみの次元感情推定について報告する。
論文 参考訳(メタデータ) (2022-07-02T17:34:44Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Fine-grained Noise Control for Multispeaker Speech Synthesis [3.449700218265025]
テキスト音声モデル(TTS)は、典型的には、内容、話者、韻律などの音声属性を非絡み合い表現に分解する。
近年の課題は, 音響条件を的確にモデル化することであり, 主要な音声要因を解消することである。
論文 参考訳(メタデータ) (2022-04-11T13:13:55Z) - Conditional Diffusion Probabilistic Model for Speech Enhancement [101.4893074984667]
本稿では,観測された雑音の音声信号の特徴を拡散・逆過程に組み込む新しい音声強調アルゴリズムを提案する。
本実験では, 代表的な生成モデルと比較して, 提案手法の強い性能を示す。
論文 参考訳(メタデータ) (2022-02-10T18:58:01Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。