Fugu-MT 論文翻訳(概要): The exploitation of Multiple Feature Extraction Techniques for Speaker Identification in Emotional States under Disguised Voices

論文の概要: The exploitation of Multiple Feature Extraction Techniques for Speaker Identification in Emotional States under Disguised Voices

arxiv url: http://arxiv.org/abs/2112.07940v1
Date: Wed, 15 Dec 2021 07:56:16 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-16 16:50:10.362421
Title: The exploitation of Multiple Feature Extraction Techniques for Speaker Identification in Emotional States under Disguised Voices
Title（参考訳）: 変装音声における感情状態における話者識別のための複数特徴抽出手法の活用
Authors: Noor Ahmad Al Hindawi, Ismail Shahin, Ali Bou Nassif
Abstract要約: 本稿では,感情環境下での疑似音声における話者識別のための特徴抽出手法を5つ活用する。この研究を著しく評価するために、高ピッチ、低ピッチ、エレクトロニック音声変換(EVC)の3つの効果が使用される。
参考スコア（独自算出の注目度）: 1.1172382217477126
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Due to improvements in artificial intelligence, speaker identification (SI) technologies have brought a great direction and are now widely used in a variety of sectors. One of the most important components of SI is feature extraction, which has a substantial impact on the SI process and performance. As a result, numerous feature extraction strategies are thoroughly investigated, contrasted, and analyzed. This article exploits five distinct feature extraction methods for speaker identification in disguised voices under emotional environments. To evaluate this work significantly, three effects are used: high-pitched, low-pitched, and Electronic Voice Conversion (EVC). Experimental results reported that the concatenated Mel-Frequency Cepstral Coefficients (MFCCs), MFCCs-delta, and MFCCs-delta-delta is the best feature extraction method.
Abstract（参考訳）: 人工知能の改良により、話者識別(SI)技術は大きな方向性をもたらし、現在では様々な分野で広く使われている。 SIの最も重要なコンポーネントの1つは特徴抽出であり、SIプロセスとパフォーマンスに大きな影響を与える。その結果、多くの特徴抽出戦略が徹底的に研究され、対比され、分析された。本稿では,感情環境下での疑似音声における話者識別のための特徴抽出手法を5つ活用する。この研究を著しく評価するために、高ピッチ、低ピッチ、電子音声変換(EVC)の3つの効果が使用される。実験結果から,MFCC,MFCCs-delta,MFCCs-deltaが最高の特徴抽出法であることがわかった。

関連論文リスト

CWEFS: Brain volume conduction effects inspired channel-wise EEG feature selection for multi-dimensional emotion recognition [6.8109977763829885]
多次元感情認識のためのチャネルワイド脳波特徴選択法(CWEFS)を提案する。脳の体積伝導効果にインスパイアされたCWEFSは、脳波の感情的特徴選択を共有潜在構造モデルに統合する。 CWEFSは適応的なチャネル重み付け学習を導入し、感情的特徴選択タスクにおける異なるEEGチャネルの意義を自動的に決定する。
論文参考訳（メタデータ） (2025-08-07T10:17:59Z)
Toward Efficient Speech Emotion Recognition via Spectral Learning and Attention [0.5371337604556311]
音声感情認識(SER)は、伝統的に感情分類のための聴覚データ分析に依存している。我々は,Mel-Frequency Cepstral Coefficients (MFCCs) をスペクトル特性として用いて,計算的感情処理と人間の聴覚知覚のギャップを埋める。データ拡張技術を統合する新しい1D-CNNベースのSERフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-04T01:55:49Z)
$C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。 MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文参考訳（メタデータ） (2025-04-01T13:01:30Z)
FE-UNet: Frequency Domain Enhanced U-Net with Segment Anything Capability for Versatile Image Segmentation [50.9040167152168]
CNNのコントラスト感度関数を実験的に定量化し,人間の視覚システムと比較した。本稿ではウェーブレット誘導分光ポーリングモジュール(WSPM)を提案する。人間の視覚系をさらにエミュレートするために、周波数領域拡張受容野ブロック(FE-RFB)を導入する。本研究では,SAM2 をバックボーンとし,Hiera-Large を事前学習ブロックとして組み込んだ FE-UNet を開発した。
論文参考訳（メタデータ） (2025-02-06T07:24:34Z)
Leveraging Mixture of Experts for Improved Speech Deepfake Detection [53.69740463004446]
スピーチのディープフェイクは、個人のセキュリティとコンテンツの信頼性に重大な脅威をもたらす。本研究では,Mixture of Expertsアーキテクチャを用いた音声深度検出性能の向上のための新しい手法を提案する。
論文参考訳（メタデータ） (2024-09-24T13:24:03Z)
MFHCA: Enhancing Speech Emotion Recognition Via Multi-Spatial Fusion and Hierarchical Cooperative Attention [6.725011823614421]
本稿では,マルチ空間融合と階層的協調注意を用いた音声感情認識手法であるMFHCAを紹介する。我々はMF(Multi-Spatial Fusion Module)を用いて感情関連スペクトログラム領域を効率よく同定し、ハイレベル音響情報にヒューバート特徴を統合する。提案手法をIEMOCAPデータセット上で評価し,重み付き精度と非重み付き精度をそれぞれ2.6%,1.87%改善した。
論文参考訳（メタデータ） (2024-04-21T02:44:17Z)
EmoDiarize: Speaker Diarization and Emotion Identification from Speech Signals using Convolutional Neural Networks [0.0]
本研究では,音声認識における深層学習技術の統合について検討する。既存の話者ダイアリゼーションパイプラインと、畳み込みニューラルネットワーク(CNN)上に構築された感情識別モデルを組み合わせたフレームワークを導入する。提案モデルでは,63%の非重み付き精度が得られ,音声信号中の感情状態を正確に同定する上で,顕著な効率性を示した。
論文参考訳（メタデータ） (2023-10-19T16:02:53Z)
A Dual Branch Network for Emotional Reaction Intensity Estimation [12.677143408225167]
両分岐型マルチアウトプット回帰モデルであるABAW(Affective Behavior Analysis in-wild)のERI問題に対する解法を提案する。空間的注意は視覚的特徴をよりよく抽出するために使用され、Mel-Frequency Cepstral Coefficients技術は音響的特徴を抽出する。本手法は,公式な検証セットにおいて優れた結果が得られる。
論文参考訳（メタデータ） (2023-03-16T10:31:40Z)
Inference and Denoise: Causal Inference-based Neural Speech Enhancement [83.4641575757706]
本研究では、雑音の存在を介入としてモデル化することにより、因果推論パラダイムにおける音声強調(SE)課題に対処する。提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。
論文参考訳（メタデータ） (2022-11-02T15:03:50Z)
The Sound of Silence: Efficiency of First Digit Features in Synthetic Audio Detection [11.52842516726486]
本研究は,合成音声検出におけるサイレント部分の識別的役割について検討する。これは、MFCC係数から抽出された1桁の統計が、いかに効率的にロバストな検出を可能にするかを示す。提案手法は計算軽量であり,多くの異なるアルゴリズムに対して有効である。
論文参考訳（メタデータ） (2022-10-06T08:31:21Z)
Multi-Point Integrated Sensing and Communication: Fusion Model and Functionality Selection [99.67715229413986]
本稿では,複数のISACデバイスからの出力を融合させて高感度化を実現する多点ISAC(MPISAC)システムを提案する。我々は,仮説テストと最適投票分析により,融合精度を予測する融合モデルを採用する。
論文参考訳（メタデータ） (2022-08-16T08:09:54Z)
Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。フェースフォージェリ検出に高周波雑音を用いることを提案する。 1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。 2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文参考訳（メタデータ） (2021-03-23T08:19:21Z)
Effects of Word-frequency based Pre- and Post- Processings for Audio Captioning [49.41766997393417]
音響シーン・イベントの検出・分類のタスク6(自動音声キャプション)に使用したシステム(DCASE)2020 Challengeは,音声キャプションのためのデータ拡張,マルチタスク学習,ポストプロセッシングという3つの要素を組み合わせる。このシステムは評価スコアが最も高いが、個々の要素のどれがパーフォーマンスに最も貢献したかはまだ明らかになっていない。
論文参考訳（メタデータ） (2020-09-24T01:07:33Z)
Optimizing Speech Emotion Recognition using Manta-Ray Based Feature Selection [1.4502611532302039]
既存の特徴抽出手法を用いて抽出した特徴の連結により,分類精度が向上することを示す。また,音声感情認識タスクにおけるマンタレイ最適化の新たな応用を行い,その結果を得た。
論文参考訳（メタデータ） (2020-09-18T16:09:34Z)
An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文参考訳（メタデータ） (2020-08-21T17:24:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。