論文の概要: The exploitation of Multiple Feature Extraction Techniques for Speaker
Identification in Emotional States under Disguised Voices
- arxiv url: http://arxiv.org/abs/2112.07940v1
- Date: Wed, 15 Dec 2021 07:56:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-16 16:50:10.362421
- Title: The exploitation of Multiple Feature Extraction Techniques for Speaker
Identification in Emotional States under Disguised Voices
- Title(参考訳): 変装音声における感情状態における話者識別のための複数特徴抽出手法の活用
- Authors: Noor Ahmad Al Hindawi, Ismail Shahin, Ali Bou Nassif
- Abstract要約: 本稿では,感情環境下での疑似音声における話者識別のための特徴抽出手法を5つ活用する。
この研究を著しく評価するために、高ピッチ、低ピッチ、エレクトロニック音声変換(EVC)の3つの効果が使用される。
- 参考スコア(独自算出の注目度): 1.1172382217477126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to improvements in artificial intelligence, speaker identification (SI)
technologies have brought a great direction and are now widely used in a
variety of sectors. One of the most important components of SI is feature
extraction, which has a substantial impact on the SI process and performance.
As a result, numerous feature extraction strategies are thoroughly
investigated, contrasted, and analyzed. This article exploits five distinct
feature extraction methods for speaker identification in disguised voices under
emotional environments. To evaluate this work significantly, three effects are
used: high-pitched, low-pitched, and Electronic Voice Conversion (EVC).
Experimental results reported that the concatenated Mel-Frequency Cepstral
Coefficients (MFCCs), MFCCs-delta, and MFCCs-delta-delta is the best feature
extraction method.
- Abstract(参考訳): 人工知能の改良により、話者識別(SI)技術は大きな方向性をもたらし、現在では様々な分野で広く使われている。
SIの最も重要なコンポーネントの1つは特徴抽出であり、SIプロセスとパフォーマンスに大きな影響を与える。
その結果、多くの特徴抽出戦略が徹底的に研究され、対比され、分析された。
本稿では,感情環境下での疑似音声における話者識別のための特徴抽出手法を5つ活用する。
この研究を著しく評価するために、高ピッチ、低ピッチ、電子音声変換(EVC)の3つの効果が使用される。
実験結果から,MFCC,MFCCs-delta,MFCCs-deltaが最高の特徴抽出法であることがわかった。
関連論文リスト
- Leveraging Mixture of Experts for Improved Speech Deepfake Detection [53.69740463004446]
スピーチのディープフェイクは、個人のセキュリティとコンテンツの信頼性に重大な脅威をもたらす。
本研究では,Mixture of Expertsアーキテクチャを用いた音声深度検出性能の向上のための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T13:24:03Z) - MFHCA: Enhancing Speech Emotion Recognition Via Multi-Spatial Fusion and Hierarchical Cooperative Attention [6.725011823614421]
本稿では,マルチ空間融合と階層的協調注意を用いた音声感情認識手法であるMFHCAを紹介する。
我々はMF(Multi-Spatial Fusion Module)を用いて感情関連スペクトログラム領域を効率よく同定し、ハイレベル音響情報にヒューバート特徴を統合する。
提案手法をIEMOCAPデータセット上で評価し,重み付き精度と非重み付き精度をそれぞれ2.6%,1.87%改善した。
論文 参考訳(メタデータ) (2024-04-21T02:44:17Z) - EmoDiarize: Speaker Diarization and Emotion Identification from Speech
Signals using Convolutional Neural Networks [0.0]
本研究では,音声認識における深層学習技術の統合について検討する。
既存の話者ダイアリゼーションパイプラインと、畳み込みニューラルネットワーク(CNN)上に構築された感情識別モデルを組み合わせたフレームワークを導入する。
提案モデルでは,63%の非重み付き精度が得られ,音声信号中の感情状態を正確に同定する上で,顕著な効率性を示した。
論文 参考訳(メタデータ) (2023-10-19T16:02:53Z) - A Dual Branch Network for Emotional Reaction Intensity Estimation [12.677143408225167]
両分岐型マルチアウトプット回帰モデルであるABAW(Affective Behavior Analysis in-wild)のERI問題に対する解法を提案する。
空間的注意は視覚的特徴をよりよく抽出するために使用され、Mel-Frequency Cepstral Coefficients技術は音響的特徴を抽出する。
本手法は,公式な検証セットにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2023-03-16T10:31:40Z) - Inference and Denoise: Causal Inference-based Neural Speech Enhancement [83.4641575757706]
本研究では、雑音の存在を介入としてモデル化することにより、因果推論パラダイムにおける音声強調(SE)課題に対処する。
提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。
論文 参考訳(メタデータ) (2022-11-02T15:03:50Z) - The Sound of Silence: Efficiency of First Digit Features in Synthetic
Audio Detection [11.52842516726486]
本研究は,合成音声検出におけるサイレント部分の識別的役割について検討する。
これは、MFCC係数から抽出された1桁の統計が、いかに効率的にロバストな検出を可能にするかを示す。
提案手法は計算軽量であり,多くの異なるアルゴリズムに対して有効である。
論文 参考訳(メタデータ) (2022-10-06T08:31:21Z) - Multi-Point Integrated Sensing and Communication: Fusion Model and
Functionality Selection [99.67715229413986]
本稿では,複数のISACデバイスからの出力を融合させて高感度化を実現する多点ISAC(MPISAC)システムを提案する。
我々は,仮説テストと最適投票分析により,融合精度を予測する融合モデルを採用する。
論文 参考訳(メタデータ) (2022-08-16T08:09:54Z) - Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。
フェースフォージェリ検出に高周波雑音を用いることを提案する。
1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。
2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文 参考訳(メタデータ) (2021-03-23T08:19:21Z) - Effects of Word-frequency based Pre- and Post- Processings for Audio
Captioning [49.41766997393417]
音響シーン・イベントの検出・分類のタスク6(自動音声キャプション)に使用したシステム(DCASE)2020 Challengeは,音声キャプションのためのデータ拡張,マルチタスク学習,ポストプロセッシングという3つの要素を組み合わせる。
このシステムは評価スコアが最も高いが、個々の要素のどれがパーフォーマンスに最も貢献したかはまだ明らかになっていない。
論文 参考訳(メタデータ) (2020-09-24T01:07:33Z) - Optimizing Speech Emotion Recognition using Manta-Ray Based Feature
Selection [1.4502611532302039]
既存の特徴抽出手法を用いて抽出した特徴の連結により,分類精度が向上することを示す。
また,音声感情認識タスクにおけるマンタレイ最適化の新たな応用を行い,その結果を得た。
論文 参考訳(メタデータ) (2020-09-18T16:09:34Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。