Fugu-MT 論文翻訳(概要): CASA-Based Speaker Identification Using Cascaded GMM-CNN Classifier in Noisy and Emotional Talking Conditions

論文の概要: CASA-Based Speaker Identification Using Cascaded GMM-CNN Classifier in Noisy and Emotional Talking Conditions

arxiv url: http://arxiv.org/abs/2102.05894v1
Date: Thu, 11 Feb 2021 08:56:12 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-12 18:54:15.985726
Title: CASA-Based Speaker Identification Using Cascaded GMM-CNN Classifier in Noisy and Emotional Talking Conditions
Title（参考訳）: 雑音および感情的発話条件におけるカスケードGMM-CNN分類器を用いたCASA話者識別
Authors: Ali Bou Nassif, Ismail Shahin, Shibani Hamsa, Nawel Nemmour, Keikichi Hirose
Abstract要約: 本研究の目的は、雑音や感情的な発話条件などの実際の応用状況において、テキストに依存しない話者識別性能を高めることである。本研究は,感情的・高雑音的環境下での話者識別の精度向上のための新しいアルゴリズムを提案し,評価する。
参考スコア（独自算出の注目度）: 1.6449390849183358
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This work aims at intensifying text-independent speaker identification performance in real application situations such as noisy and emotional talking conditions. This is achieved by incorporating two different modules: a Computational Auditory Scene Analysis CASA based pre-processing module for noise reduction and cascaded Gaussian Mixture Model Convolutional Neural Network GMM-CNN classifier for speaker identification followed by emotion recognition. This research proposes and evaluates a novel algorithm to improve the accuracy of speaker identification in emotional and highly-noise susceptible conditions. Experiments demonstrate that the proposed model yields promising results in comparison with other classifiers when Speech Under Simulated and Actual Stress SUSAS database, Emirati Speech Database ESD, the Ryerson Audio-Visual Database of Emotional Speech and Song RAVDESS database and the Fluent Speech Commands database are used in a noisy environment.
Abstract（参考訳）: 本研究の目的は、雑音や感情的な会話条件などの実際の応用状況において、テキスト非依存の話者識別性能を高めることである。これは、2つの異なるモジュールを組み込むことによって実現される: 雑音低減のための計算聴覚シーン分析 CASA に基づく事前処理モジュールと、話者識別のためのガウス混合モデル畳み込みニューラルネットワーク GMM-CNN 分類器、および感情認識である。本研究では,感情的および高雑音環境下での話者識別精度を向上させる新しいアルゴリズムを提案し,評価する。実験では,SUSASデータベース,Emirati Speech Database ESD,Ryerson Audio-Visual Database of Emotional Speech and Song RAVDESSデータベース,Fluent Speech Commandsデータベースがノイズの多い環境で使用されている場合に,他の分類器と比較して有望な結果が得られることを実証した。

関連論文リスト

Language Modelling for Speaker Diarization in Telephonic Interviews [13.851959980488529]
音響的特徴と言語的内容の組み合わせは、単語レベルのDERで84.29%改善している。本研究は,一部の話者認識タスクにおいて,言語内容が効率的に利用できることを確認した。
論文参考訳（メタデータ） (2025-01-28T18:18:04Z)
Effective Noise-aware Data Simulation for Domain-adaptive Speech Enhancement Leveraging Dynamic Stochastic Perturbation [25.410770364140856]
クロスドメイン音声強調(SE)は、目に見えない対象領域におけるノイズや背景情報の不足により、しばしば深刻な課題に直面している。本研究では,ノイズ抽出技術とGANを利用した新しいデータシミュレーション手法を提案する。本研究では,動的摂動の概念を導入し,制御された摂動を推論中の雑音埋め込みに注入する。
論文参考訳（メタデータ） (2024-09-03T02:29:01Z)
DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding [51.32965203977845]
本稿では,連続的な音声エンコーダ出力の代わりに離散音声単位(DSU)を用いることを提案する。提案モデルでは, 未知領域からの音声入力に対する頑健な性能と, 音声質問応答における指示追従能力を示す。この結果から,ASRタスクとデータセットは,音声質問応答タスクの指導訓練に必須ではないことが示唆された。
論文参考訳（メタデータ） (2024-06-13T17:28:13Z)
EmoDiarize: Speaker Diarization and Emotion Identification from Speech Signals using Convolutional Neural Networks [0.0]
本研究では,音声認識における深層学習技術の統合について検討する。既存の話者ダイアリゼーションパイプラインと、畳み込みニューラルネットワーク(CNN)上に構築された感情識別モデルを組み合わせたフレームワークを導入する。提案モデルでは,63%の非重み付き精度が得られ,音声信号中の感情状態を正確に同定する上で,顕著な効率性を示した。
論文参考訳（メタデータ） (2023-10-19T16:02:53Z)
Inference and Denoise: Causal Inference-based Neural Speech Enhancement [83.4641575757706]
本研究では、雑音の存在を介入としてモデル化することにより、因果推論パラダイムにおける音声強調(SE)課題に対処する。提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。
論文参考訳（メタデータ） (2022-11-02T15:03:50Z)
Direction-Aware Joint Adaptation of Neural Speech Enhancement and Recognition in Real Multiparty Conversational Environments [21.493664174262737]
本稿では,現実の多人数会話環境における音声コミュニケーションを支援する拡張現実ヘッドセットの雑音音声認識について述べる。本研究では,高信頼な推定文字を用いたクリーン音声信号とノイズ音声信号を用いて,マスク推定器とASRモデルを実行時に共同で更新する半教師付き適応手法を提案する。
論文参考訳（メタデータ） (2022-07-15T03:43:35Z)
Deep Learning-based Non-Intrusive Multi-Objective Speech Assessment Model with Cross-Domain Features [30.57631206882462]
MOSA-Netは、テスト音声信号を入力として、音声品質、知性、歪み評価スコアを推定するように設計されている。音声品質(PESQ)、短時間客観性(STOI)、音声歪み指数(BLS)のスコアを、雑音および拡張音声発話の両方で正確に予測できることを,MOSA-Netが示す。
論文参考訳（メタデータ） (2021-11-03T17:30:43Z)
End-to-End Diarization for Variable Number of Speakers with Local-Global Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文参考訳（メタデータ） (2021-05-05T14:55:29Z)
Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。本稿では,WUW検出に適応した音声強調モデルを提案する。これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文参考訳（メタデータ） (2021-01-29T18:44:05Z)
Cross-domain Adaptation with Discrepancy Minimization for Text-independent Forensic Speaker Verification [61.54074498090374]
本研究では,複数の音響環境下で収集したCRSS-Forensicsオーディオデータセットを紹介する。我々は、VoxCelebデータを用いてCNNベースのネットワークを事前訓練し、次に、CRSS-Forensicsのクリーンな音声で高レベルのネットワーク層の一部を微調整するアプローチを示す。
論文参考訳（メタデータ） (2020-09-05T02:54:33Z)
Statistical Context-Dependent Units Boundary Correction for Corpus-based Unit-Selection Text-to-Speech [1.4337588659482519]
本稿では, 分割の精度を向上させるために, 単位選択テキスト音声(TTS)システムに適用するための, 話者適応のための革新的な手法を提案する。従来の話者適応手法とは違って,言語分析手法を応用した文脈依存特性のみの利用を目標としている。
論文参考訳（メタデータ） (2020-03-05T12:42:13Z)
Deep Speaker Embeddings for Far-Field Speaker Recognition on Short Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文参考訳（メタデータ） (2020-02-14T13:34:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。