論文の概要: Text Independent Speaker Identification System for Access Control
- arxiv url: http://arxiv.org/abs/2209.14335v1
- Date: Mon, 26 Sep 2022 14:42:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 18:23:38.420031
- Title: Text Independent Speaker Identification System for Access Control
- Title(参考訳): アクセス制御のためのテキスト独立話者識別システム
- Authors: Oluyemi E. Adetoyi
- Abstract要約: ヒューマンインテリジェンスシステムでさえ、特定の個人からスピーチを識別する精度を100%提供できない。
本稿では,Mel Frequency Cepstral Coefficients(MFCC)を特徴抽出に用い,k-Nearest Neighbor(kNN)を分類に用いたテキスト非依存話者識別システムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Even human intelligence system fails to offer 100% accuracy in identifying
speeches from a specific individual. Machine intelligence is trying to mimic
humans in speaker identification problems through various approaches to speech
feature extraction and speech modeling techniques. This paper presents a
text-independent speaker identification system that employs Mel Frequency
Cepstral Coefficients (MFCC) for feature extraction and k-Nearest Neighbor
(kNN) for classification. The maximum cross-validation accuracy obtained was
60%. This will be improved upon in subsequent research.
- Abstract(参考訳): ヒューマンインテリジェンスシステムでさえ、特定の個人からスピーチを識別する精度を100%提供できない。
機械学習は、音声特徴抽出と音声モデリング技術への様々なアプローチを通して、話者識別問題の人間を模倣しようとしている。
本稿では,Mel Frequency Cepstral Coefficients(MFCC)を特徴抽出に用い,k-Nearest Neighbor(kNN)を分類に用いたテキスト非依存話者識別システムを提案する。
最大クロスバリデーション精度は60%であった。
これはその後の研究で改善される。
関連論文リスト
- Investigating Confidence Estimation Measures for Speaker Diarization [4.679826697518427]
話者ダイアリゼーションシステムは、話者のアイデンティティに基づいた会話記録をセグメント化する。
話者ダイアリゼーションエラーは、話者のアイデンティティに依存する下流システムに伝播し、悪影響を及ぼす可能性がある。
これらのエラーを軽減する方法の1つは、下流システムにセグメントレベルのダイアリゼーション信頼スコアを提供することである。
論文 参考訳(メタデータ) (2024-06-24T20:21:38Z) - What to Remember: Self-Adaptive Continual Learning for Audio Deepfake
Detection [53.063161380423715]
既存の検出モデルは、既知のディープフェイク音声を識別することに成功したが、新しい攻撃タイプに遭遇する際には苦労している。
本稿では,Radian Weight Modification (RWM) と呼ばれる連続的な学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T09:52:17Z) - EmoDiarize: Speaker Diarization and Emotion Identification from Speech
Signals using Convolutional Neural Networks [0.0]
本研究では,音声認識における深層学習技術の統合について検討する。
既存の話者ダイアリゼーションパイプラインと、畳み込みニューラルネットワーク(CNN)上に構築された感情識別モデルを組み合わせたフレームワークを導入する。
提案モデルでは,63%の非重み付き精度が得られ,音声信号中の感情状態を正確に同定する上で,顕著な効率性を示した。
論文 参考訳(メタデータ) (2023-10-19T16:02:53Z) - Gammatonegram Representation for End-to-End Dysarthric Speech Processing Tasks: Speech Recognition, Speaker Identification, and Intelligibility Assessment [1.0359008237358598]
失語症(Dysarthria)は、人間の音声システムに障害を引き起こす障害である。
本稿では,ガンマトーングラムを識別的詳細で音声ファイルを表現する効果的な方法として紹介する。
我々は,各音声ファイルを画像に変換し,異なるシナリオで音声を分類する画像認識システムを提案する。
論文 参考訳(メタデータ) (2023-07-06T21:10:50Z) - Improving speaker de-identification with functional data analysis of f0
trajectories [10.809893662563926]
フォーマント修正は、訓練データを必要としない話者識別のための、シンプルで効果的な方法である。
本研究は, 簡易な定式化シフトに加えて, 関数データ解析に基づくf0トラジェクトリを操作する新しい話者識別手法を提案する。
提案手法は,音素的に制御可能なピッチ特性を最適に識別し,フォルマントに基づく話者識別を最大25%改善する。
論文 参考訳(メタデータ) (2022-03-31T01:34:15Z) - Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。
本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文 参考訳(メタデータ) (2021-08-30T07:00:28Z) - FoolHD: Fooling speaker identification by Highly imperceptible
adversarial Disturbances [63.80959552818541]
話者識別モデルに対する知覚不能な摂動を発生させるホワイトボックス・ステガノグラフィーによる敵攻撃を提案する。
我々のアプローチであるFoolHDは、DCTドメインで動作するGated Convolutional Autoencoderを使用し、多目的損失関数で訓練されている。
我々は,VoxCelebを用いて訓練した250話者識別xベクトルネットワークを用いてFoolHDを検証する。
論文 参考訳(メタデータ) (2020-11-17T07:38:26Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z) - A Lightweight Speaker Recognition System Using Timbre Properties [0.5708902722746041]
ランダム森林分類器に基づく軽量テキスト非依存話者認識モデルを提案する。
また、話者認証と識別タスクの両方に使用される新機能も導入されている。
このプロトタイプは7つの最も活発に探索された特性、ブーム性、明るさ、深さ、硬さ、音色、鋭さ、暖かさを使っている。
論文 参考訳(メタデータ) (2020-10-12T07:56:03Z) - Multi-talker ASR for an unknown number of sources: Joint training of
source counting, separation and ASR [91.87500543591945]
能動話者の未知数に対するエンドツーエンドマルチストーカー自動音声認識システムを開発した。
実験の結果,精度,音源分離,音声認識において有望な性能を示した。
我々のシステムは、トレーニング中に見たよりも多くの話者によく当てはまる。
論文 参考訳(メタデータ) (2020-06-04T11:25:50Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。