論文の概要: The exploitation of Multiple Feature Extraction Techniques for Speaker
Identification in Emotional States under Disguised Voices
- arxiv url: http://arxiv.org/abs/2112.07940v1
- Date: Wed, 15 Dec 2021 07:56:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-16 16:50:10.362421
- Title: The exploitation of Multiple Feature Extraction Techniques for Speaker
Identification in Emotional States under Disguised Voices
- Title(参考訳): 変装音声における感情状態における話者識別のための複数特徴抽出手法の活用
- Authors: Noor Ahmad Al Hindawi, Ismail Shahin, Ali Bou Nassif
- Abstract要約: 本稿では,感情環境下での疑似音声における話者識別のための特徴抽出手法を5つ活用する。
この研究を著しく評価するために、高ピッチ、低ピッチ、エレクトロニック音声変換(EVC)の3つの効果が使用される。
- 参考スコア(独自算出の注目度): 1.1172382217477126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to improvements in artificial intelligence, speaker identification (SI)
technologies have brought a great direction and are now widely used in a
variety of sectors. One of the most important components of SI is feature
extraction, which has a substantial impact on the SI process and performance.
As a result, numerous feature extraction strategies are thoroughly
investigated, contrasted, and analyzed. This article exploits five distinct
feature extraction methods for speaker identification in disguised voices under
emotional environments. To evaluate this work significantly, three effects are
used: high-pitched, low-pitched, and Electronic Voice Conversion (EVC).
Experimental results reported that the concatenated Mel-Frequency Cepstral
Coefficients (MFCCs), MFCCs-delta, and MFCCs-delta-delta is the best feature
extraction method.
- Abstract(参考訳): 人工知能の改良により、話者識別(SI)技術は大きな方向性をもたらし、現在では様々な分野で広く使われている。
SIの最も重要なコンポーネントの1つは特徴抽出であり、SIプロセスとパフォーマンスに大きな影響を与える。
その結果、多くの特徴抽出戦略が徹底的に研究され、対比され、分析された。
本稿では,感情環境下での疑似音声における話者識別のための特徴抽出手法を5つ活用する。
この研究を著しく評価するために、高ピッチ、低ピッチ、電子音声変換(EVC)の3つの効果が使用される。
実験結果から,MFCC,MFCCs-delta,MFCCs-deltaが最高の特徴抽出法であることがわかった。
関連論文リスト
- Leveraged Mel spectrograms using Harmonic and Percussive Components in
Speech Emotion Recognition [15.919990281329085]
本研究では,メルスペクトルの高調波成分とパーカッシブ成分が音声感情認識(SER)に及ぼす影響について検討する。
提案アーキテクチャにおける音響特性を分解し,メル分光図の活用を試みる。
本研究は,リッチなハイブリッド機能マップ構築のための効果的なデータ拡張技術に焦点を当てた。
論文 参考訳(メタデータ) (2023-12-18T05:55:46Z) - EmoDiarize: Speaker Diarization and Emotion Identification from Speech
Signals using Convolutional Neural Networks [0.0]
本研究では,音声認識における深層学習技術の統合について検討する。
既存の話者ダイアリゼーションパイプラインと、畳み込みニューラルネットワーク(CNN)上に構築された感情識別モデルを組み合わせたフレームワークを導入する。
提案モデルでは,63%の非重み付き精度が得られ,音声信号中の感情状態を正確に同定する上で,顕著な効率性を示した。
論文 参考訳(メタデータ) (2023-10-19T16:02:53Z) - A Dual Branch Network for Emotional Reaction Intensity Estimation [12.677143408225167]
両分岐型マルチアウトプット回帰モデルであるABAW(Affective Behavior Analysis in-wild)のERI問題に対する解法を提案する。
空間的注意は視覚的特徴をよりよく抽出するために使用され、Mel-Frequency Cepstral Coefficients技術は音響的特徴を抽出する。
本手法は,公式な検証セットにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2023-03-16T10:31:40Z) - Inference and Denoise: Causal Inference-based Neural Speech Enhancement [83.4641575757706]
本研究では、雑音の存在を介入としてモデル化することにより、因果推論パラダイムにおける音声強調(SE)課題に対処する。
提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。
論文 参考訳(メタデータ) (2022-11-02T15:03:50Z) - The Sound of Silence: Efficiency of First Digit Features in Synthetic
Audio Detection [11.52842516726486]
本研究は,合成音声検出におけるサイレント部分の識別的役割について検討する。
これは、MFCC係数から抽出された1桁の統計が、いかに効率的にロバストな検出を可能にするかを示す。
提案手法は計算軽量であり,多くの異なるアルゴリズムに対して有効である。
論文 参考訳(メタデータ) (2022-10-06T08:31:21Z) - Multi-Point Integrated Sensing and Communication: Fusion Model and
Functionality Selection [99.67715229413986]
本稿では,複数のISACデバイスからの出力を融合させて高感度化を実現する多点ISAC(MPISAC)システムを提案する。
我々は,仮説テストと最適投票分析により,融合精度を予測する融合モデルを採用する。
論文 参考訳(メタデータ) (2022-08-16T08:09:54Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。
フェースフォージェリ検出に高周波雑音を用いることを提案する。
1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。
2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文 参考訳(メタデータ) (2021-03-23T08:19:21Z) - Effects of Word-frequency based Pre- and Post- Processings for Audio
Captioning [49.41766997393417]
音響シーン・イベントの検出・分類のタスク6(自動音声キャプション)に使用したシステム(DCASE)2020 Challengeは,音声キャプションのためのデータ拡張,マルチタスク学習,ポストプロセッシングという3つの要素を組み合わせる。
このシステムは評価スコアが最も高いが、個々の要素のどれがパーフォーマンスに最も貢献したかはまだ明らかになっていない。
論文 参考訳(メタデータ) (2020-09-24T01:07:33Z) - Optimizing Speech Emotion Recognition using Manta-Ray Based Feature
Selection [1.4502611532302039]
既存の特徴抽出手法を用いて抽出した特徴の連結により,分類精度が向上することを示す。
また,音声感情認識タスクにおけるマンタレイ最適化の新たな応用を行い,その結果を得た。
論文 参考訳(メタデータ) (2020-09-18T16:09:34Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。