論文の概要: Multi-Microphone Speech Emotion Recognition using the Hierarchical Token-semantic Audio Transformer Architecture
- arxiv url: http://arxiv.org/abs/2406.03272v1
- Date: Wed, 5 Jun 2024 13:50:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 18:10:52.603774
- Title: Multi-Microphone Speech Emotion Recognition using the Hierarchical Token-semantic Audio Transformer Architecture
- Title(参考訳): 階層型Token-Semantic Audio Transformerアーキテクチャを用いたマルチマイクロホン音声認識
- Authors: Ohad Cohen, Gershon Hazan, Sharon Gannot,
- Abstract要約: 本研究では,音声感情認識(SER)アルゴリズムの性能劣化を緩和する新しい手法を提案する。
これらの課題に対処し、感情分類精度を向上させるために、マルチマイクロホン信号の処理を提案する。
我々のマルチマイクロフォンモデルは,実世界の残響環境において,単チャンネルベースラインよりも優れた性能を実現する。
- 参考スコア(独自算出の注目度): 11.063156506583562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most emotion recognition systems fail in real-life situations (in the wild scenarios) where the audio is contaminated by reverberation. Our study explores new methods to alleviate the performance degradation of Speech Emotion Recognition (SER) algorithms and develop a more robust system for adverse conditions. We propose processing multi-microphone signals to address these challenges and improve emotion classification accuracy. We adopt a state-of-the-art transformer model, the Hierarchical Token-semantic Audio Transformer (HTS-AT), to handle multi-channel audio inputs. We evaluate two strategies: averaging mel-spectrograms across channels and summing patch-embedded representations. Our multimicrophone model achieves superior performance compared to single-channel baselines when tested on real-world reverberant environments.
- Abstract(参考訳): ほとんどの感情認識システムは、残響によって音声が汚染される現実の状況(野生のシナリオ)では失敗する。
本研究では,音声感情認識(SER)アルゴリズムの性能劣化を緩和し,悪条件に対するより堅牢なシステムを開発するための新しい手法を提案する。
これらの課題に対処し、感情分類精度を向上させるために、マルチマイクロホン信号の処理を提案する。
我々は,マルチチャンネル音声入力を処理するために,最先端トランスモデルである階層型Token-Semantic Audio Transformer (HTS-AT)を採用している。
チャネル間の平均メル-スペクトログラムの評価と,パッチ埋め込み表現の要約の2つの戦略を評価する。
我々のマルチマイクロフォンモデルは,実世界の残響環境での試験において,シングルチャネルベースラインと比較して優れた性能を実現する。
関連論文リスト
- Channel-Aware Domain-Adaptive Generative Adversarial Network for Robust Speech Recognition [23.9811164130045]
本稿では,頑健な音声認識訓練のためのチャネル認識データシミュレーション手法を提案する。
提案手法は,チャネル抽出技術とGANの相乗効果を利用する。
台湾におけるハッカ・アクロス・台湾 (HAT) と台湾・アクロス・台湾 (TAT) のコーパスについて, 相対的文字誤り率 (CER) を 20.02% と 9.64% の減少率で評価した。
論文 参考訳(メタデータ) (2024-09-19T01:02:31Z) - Multi-Microphone and Multi-Modal Emotion Recognition in Reverberant Environment [11.063156506583562]
本稿では,難聴時の感情認識精度を高めるために,マルチモーダル感情認識(MER)システムを提案する。
提案手法は,マルチチャンネル音声処理のための階層型音声変換器(HTS-AT)とビデオ解析のためのR(2+1)D畳み込みニューラルネットワーク(CNN)モデルを組み合わせたものである。
論文 参考訳(メタデータ) (2024-09-14T21:58:39Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Improved MVDR Beamforming Using LSTM Speech Models to Clean Spatial
Clustering Masks [14.942060304734497]
空間クラスタリング技術は、比較的任意のマイクロホン構成で大きなマルチチャネルノイズ低減を実現することができる。
LSTMニューラルネットワークは、単一チャネル入力のノイズから音声を認識するために訓練されているが、マルチチャネル記録における情報を完全に活用することは困難である。
本稿では,これら2つのアプローチを統合し,モデルベースEMソース分離局所化法(MESSL)により生成されたマスクを除去するためにLSTM音声モデルを訓練する。
論文 参考訳(メタデータ) (2020-12-02T22:35:00Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z) - Multiresolution and Multimodal Speech Recognition with Transformers [22.995102995029576]
本稿ではトランスフォーマーアーキテクチャを用いた音声視覚自動音声認識(AV-ASR)システムを提案する。
我々は、視覚情報によって提供されるシーンコンテキストに着目して、ASRを接地する。
私たちの結果は、最先端のListen、Attend、Spellベースのアーキテクチャに匹敵します。
論文 参考訳(メタデータ) (2020-04-29T09:32:11Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。