論文の概要: Investigations on Audiovisual Emotion Recognition in Noisy Conditions
- arxiv url: http://arxiv.org/abs/2103.01894v1
- Date: Tue, 2 Mar 2021 17:45:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-04 09:53:03.194321
- Title: Investigations on Audiovisual Emotion Recognition in Noisy Conditions
- Title(参考訳): 騒音環境における視聴覚感情認識の検討
- Authors: Michael Neumann and Ngoc Thang Vu
- Abstract要約: 本稿では,異なる信号対雑音比で重畳ノイズを持つ2つの感情データセットについて検討する。
その結果、ノイズの多いデータにクリーンオーディオで訓練されたモデルを適用すると、パフォーマンスが大幅に低下します。
- 参考スコア(独自算出の注目度): 43.40644186593322
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper we explore audiovisual emotion recognition under noisy acoustic
conditions with a focus on speech features. We attempt to answer the following
research questions: (i) How does speech emotion recognition perform on noisy
data? and (ii) To what extend does a multimodal approach improve the accuracy
and compensate for potential performance degradation at different noise levels?
We present an analytical investigation on two emotion datasets with
superimposed noise at different signal-to-noise ratios, comparing three types
of acoustic features. Visual features are incorporated with a hybrid fusion
approach: The first neural network layers are separate modality-specific ones,
followed by at least one shared layer before the final prediction. The results
show a significant performance decrease when a model trained on clean audio is
applied to noisy data and that the addition of visual features alleviates this
effect.
- Abstract(参考訳): 本稿では,音声特徴に着目した雑音環境下での聴覚的感情認識について検討する。
i)音声の感情認識は、ノイズの多いデータに対してどのように機能するのか?
そして(ii)マルチモーダルアプローチは、精度を改善し、異なるノイズレベルでの潜在的な性能低下を補うために何を拡張するか?
異なる信号-雑音比で重畳された2つの感情データセットの分析を行い、3種類の音響特性を比較した。
視覚的特徴はハイブリッドフュージョンアプローチに組み込まれている。 最初のニューラルネットワーク層は、モダリティ固有のものと別個のもので、次に最終予測の前に少なくとも1つの共有層が続く。
その結果、クリーンオーディオで訓練されたモデルがノイズの多いデータに適用されると、パフォーマンスが大幅に低下し、視覚機能の追加によりこの効果が軽減されます。
関連論文リスト
- Multi-modal Speech Transformer Decoders: When Do Multiple Modalities Improve Accuracy? [12.662031101992968]
合成および実世界の両方のデータセットにおける認識精度に対する多重モーダル性の影響について検討する。
音声認識のための補足的モダリティとしてのイメージは、中等度雑音レベルにおいて最大の利益をもたらす。
最も関連性の高い視覚情報が前処理ステップとしてフィルタリングされる場合、合成データセットと実世界のデータセットの両方のパフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-09-13T22:18:45Z) - Hearing Lips in Noise: Universal Viseme-Phoneme Mapping and Transfer for
Robust Audio-Visual Speech Recognition [21.477900473255264]
AVSRの強靭性を高めるために,雑音不変の視覚的モダリティを提案する。
人間の知覚のメカニズムに触発されて,モーダリティ伝達を実装するユニバーサルビセム・音素マッピング (UniVPM) 手法を提案する。
提案手法は, 各種ノイズ, 清潔な条件下での最先端性を実現する。
論文 参考訳(メタデータ) (2023-06-18T13:53:34Z) - Egocentric Audio-Visual Noise Suppression [11.113020254726292]
本稿では,エゴセントリックビデオの音声・視覚ノイズ抑圧について検討する。
ビデオカメラは、外界のオフスクリーンスピーカーのビューをエミュレートします。
まず,エゴセントリックな視覚情報が騒音抑制に有効であることを示す。
論文 参考訳(メタデータ) (2022-11-07T15:53:12Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。
フェースフォージェリ検出に高周波雑音を用いることを提案する。
1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。
2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文 参考訳(メタデータ) (2021-03-23T08:19:21Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio
Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。
組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文 参考訳(メタデータ) (2020-06-15T13:17:18Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z) - Robust Speaker Recognition Using Speech Enhancement And Attention Model [37.33388614967888]
音声強調と話者認識を個別に処理する代わりに、ディープニューラルネットワークを用いた共同最適化により、2つのモジュールを1つのフレームワークに統合する。
雑音に対するロバスト性を高めるため、時間と周波数領域のコンテキスト情報から得られた話者関連特徴を強調するために、多段階アテンション機構を用いる。
その結果,音声強調モデルと多段階アテンションモデルを用いた提案手法は,実験のほとんどの音響条件下では使用しない2つの強いベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-01-14T20:03:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。