論文の概要: Best Practices for Noise-Based Augmentation to Improve the Performance
of Deployable Speech-Based Emotion Recognition Systems
- arxiv url: http://arxiv.org/abs/2104.08806v2
- Date: Thu, 31 Aug 2023 18:26:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-04 17:50:57.896155
- Title: Best Practices for Noise-Based Augmentation to Improve the Performance
of Deployable Speech-Based Emotion Recognition Systems
- Title(参考訳): 展開型音声ベース感情認識システムの性能向上のためのノイズベース強化のベストプラクティス
- Authors: Mimansa Jaiswal, Emily Mower Provost
- Abstract要約: 音声の感情認識は、人間中心のシステムにおいて重要な構成要素である。
騒音の増大は、予測ラベルがノイズの有無で同じであるべきだという一つの重要な仮定を成す。
我々はクラウドソーシングを通じて、ノイズの存在によってアノテーションラベルが変化し、したがって元の基底真理ラベルが変更される可能性があることを検証した。
- 参考スコア(独自算出の注目度): 15.013423048411493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech emotion recognition is an important component of any human centered
system. But speech characteristics produced and perceived by a person can be
influenced by a multitude of reasons, both desirable such as emotion, and
undesirable such as noise. To train robust emotion recognition models, we need
a large, yet realistic data distribution, but emotion datasets are often small
and hence are augmented with noise. Often noise augmentation makes one
important assumption, that the prediction label should remain the same in
presence or absence of noise, which is true for automatic speech recognition
but not necessarily true for perception based tasks. In this paper we make
three novel contributions. We validate through crowdsourcing that the presence
of noise does change the annotation label and hence may alter the original
ground truth label. We then show how disregarding this knowledge and assuming
consistency in ground truth labels propagates to downstream evaluation of ML
models, both for performance evaluation and robustness testing. We end the
paper with a set of recommendations for noise augmentations in speech emotion
recognition datasets.
- Abstract(参考訳): 音声感情認識は,人間中心システムにおいて重要な要素である。
しかし、人によって生み出され、知覚される音声の特徴は、感情などの望ましい理由や、騒音のような望ましくない理由の影響を受けやすい。
堅牢な感情認識モデルをトレーニングするには、大きくて現実的なデータ分散が必要ですが、感情データセットはしばしば小さく、ノイズによって拡張されます。
ノイズ増減はしばしば、予測ラベルはノイズの有無において同じであり、自動音声認識には当てはまるが、知覚に基づくタスクには必ずしも当てはまらないという、重要な前提を定めている。
本稿では3つの新しい貢献を行う。
我々はクラウドソーシングを通じて、ノイズの存在によってアノテーションラベルが変化し、したがって本来の真実ラベルが変更されることを検証する。
次に、この知識を無視し、真理ラベルの一貫性を仮定すると、パフォーマンス評価とロバストネステストの両方において、MLモデルの下流評価にどのように伝搬するかを示す。
我々は、音声感情認識データセットにおける雑音増強のための一連の勧告で論文を締めくくった。
関連論文リスト
- Prompting Audios Using Acoustic Properties For Emotion Representation [36.275219004598874]
感情を表現するために自然言語記述(あるいはプロンプト)の使用を提案する。
我々は、ピッチ、強度、発話速度、調音率などの感情に相関する音響特性を用いて、自動的にプロンプトを生成する。
その結果,様々なPrecision@K測定値において,音響的プロンプトがモデルの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-03T13:06:58Z) - Describing emotions with acoustic property prompts for speech emotion
recognition [30.990720176317463]
本研究では、ピッチ、ラウドネス、発声率、調音率などの音響特性を演算することで、所定の音声に対する記述を自動生成する手法を提案する。
これらの音声テキストペアを用いてニューラルネットワークモデルをトレーニングし、さらに1つのデータセットを用いてモデルを評価する。
モデルが音声と記述を関連づけることについて検討し,その結果,音声の感情認識と音声検索の性能が向上した。
論文 参考訳(メタデータ) (2022-11-14T20:29:37Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z) - Investigations on Audiovisual Emotion Recognition in Noisy Conditions [43.40644186593322]
本稿では,異なる信号対雑音比で重畳ノイズを持つ2つの感情データセットについて検討する。
その結果、ノイズの多いデータにクリーンオーディオで訓練されたモデルを適用すると、パフォーマンスが大幅に低下します。
論文 参考訳(メタデータ) (2021-03-02T17:45:16Z) - Facial Emotion Recognition with Noisy Multi-task Annotations [88.42023952684052]
ノイズの多いマルチタスクアノテーションを用いた顔の感情認識の新しい問題を提案する。
この新たな問題に対して,共同分布マッチングの観点からの定式化を提案する。
我々は,感情予測と共同分布学習を可能にする新しい手法を利用する。
論文 参考訳(メタデータ) (2020-10-19T20:39:37Z) - Embedded Emotions -- A Data Driven Approach to Learn Transferable
Feature Representations from Raw Speech Input for Emotion Recognition [1.4556324908347602]
本研究では,大規模テキストと音声コーパスから学習した知識を自動感情認識のタスクに適用する可能性について検討する。
その結果,学習した特徴表現を音声言語からの感情の分類に効果的に適用できることが示唆された。
論文 参考訳(メタデータ) (2020-09-30T09:18:31Z) - x-vectors meet emotions: A study on dependencies between emotion and
speaker recognition [38.181055783134006]
話者認識のために学習した知識は、伝達学習を通じて感情認識に再利用可能であることを示す。
感情認識では,単純な線形モデルを用いることで,事前学習モデルから抽出した特徴の良好な性能が得られることを示す。
本稿では,感情が話者の検証に及ぼす影響について述べる。
論文 参考訳(メタデータ) (2020-02-12T15:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。