論文の概要: PDAF: A Phonetic Debiasing Attention Framework For Speaker Verification
- arxiv url: http://arxiv.org/abs/2409.05799v1
- Date: Mon, 9 Sep 2024 17:03:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 13:46:22.183146
- Title: PDAF: A Phonetic Debiasing Attention Framework For Speaker Verification
- Title(参考訳): PDAF:話者認証のための音声障害注意フレームワーク
- Authors: Massa Baali, Abdulhamid Aldoobi, Hira Dhamyal, Rita Singh, Bhiksha Raj,
- Abstract要約: 音素支配に起因したバイアスを軽減するために,新しい音素劣化注意フレームワーク (PDAF) を導入した。
PDAFは各音素の重み付けを調整し、特徴抽出に影響を与える。
- 参考スコア(独自算出の注目度): 29.627260038070528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speaker verification systems are crucial for authenticating identity through voice. Traditionally, these systems focus on comparing feature vectors, overlooking the speech's content. However, this paper challenges this by highlighting the importance of phonetic dominance, a measure of the frequency or duration of phonemes, as a crucial cue in speaker verification. A novel Phoneme Debiasing Attention Framework (PDAF) is introduced, integrating with existing attention frameworks to mitigate biases caused by phonetic dominance. PDAF adjusts the weighting for each phoneme and influences feature extraction, allowing for a more nuanced analysis of speech. This approach paves the way for more accurate and reliable identity authentication through voice. Furthermore, by employing various weighting strategies, we evaluate the influence of phonetic features on the efficacy of the speaker verification system.
- Abstract(参考訳): 話者認証システムは音声によるアイデンティティの認証に不可欠である。
伝統的に、これらのシステムは特徴ベクトルの比較に焦点を合わせ、音声の内容を見渡す。
しかし,本論文では,話者認証における重要な手がかりとして,音素の頻度や持続時間の尺度である音素支配の重要性を強調することで,この問題に対処する。
音声の優位性によるバイアスを軽減するために,既存の注目フレームワークを統合した新しいPhoneme Debiasing Attention Framework(PDAF)が導入された。
PDAFは各音素の重み付けを調整し、特徴抽出に影響を与える。
このアプローチは、音声によるより正確で信頼性の高いID認証を実現する方法である。
さらに,様々な重み付け手法を用いて,話者認証システムの有効性に対する音声特徴の影響を評価する。
関連論文リスト
- Discrete Unit based Masking for Improving Disentanglement in Voice Conversion [8.337649176647645]
話者符号化前の入力に新しいマスキング機構を導入し,音素クラスと高い対応性を持つ特定の個別音声単位をマスキングする。
提案手法は,複数のVC手法間の絡み合いと変換性能を44%向上させ,客観的インテリジェンスを相対的に向上させる。
論文 参考訳(メタデータ) (2024-09-17T21:17:59Z) - Phonetic-aware speaker embedding for far-field speaker verification [25.50311094643337]
遠距離場話者検証のための音声コンテンツを活用するための共同学習音声認識と話者認識フレームワークを提案する。
このフレームワークは、話者埋め込みネットワークのフレームベースの特徴マップとwav2vecのベクトルとをマッチングすることにより、話者埋め込みが音声情報を保存することを奨励する。
提案したフレームワークは,VOiCES Challenge 2019評価セットとVoxCeleb1テストセットの標準話者埋め込みよりも優れていた。
論文 参考訳(メタデータ) (2023-11-27T08:45:35Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Text-Aware End-to-end Mispronunciation Detection and Diagnosis [17.286013739453796]
誤認識検出・診断(MDD)技術はコンピュータ支援発音訓練システム(CAPT)の鍵となる要素である
本稿では,関係のないテキスト情報を抑えつつ,関連する音声特徴をより重要視するゲーティング戦略を提案する。
論文 参考訳(メタデータ) (2022-06-15T04:08:10Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Similarity and Content-based Phonetic Self Attention for Speech
Recognition [16.206467862132012]
提案する音韻自己注意(phSA)は2種類の音韻的注意から成り立っている。
原点製品のどの部分が2つの異なる注意パターンと関連しているかを特定し、簡単な修正によって各部分を改善する。
音素分類と音声認識実験により,低層化において,SA を phSA に置き換えることにより,遅延やパラメータサイズを増大させることなく,音声認識性能が向上することが示された。
論文 参考訳(メタデータ) (2022-03-19T05:35:26Z) - FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and
Fusing Fine-Grained Voice Fragments With Attention [66.77490220410249]
本稿では、Wav2Vec 2.0から、音源話者からの発声の潜在音声構造を求めるFragmentVCを提案する。
FragmentVCは、ターゲット話者発話からきめ細かい音声断片を抽出し、所望の発話に融合することができる。
提案手法は, コンテンツと話者情報との絡み合いを考慮せずに, 再構成損失を学習する。
論文 参考訳(メタデータ) (2020-10-27T09:21:03Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Speaker-Utterance Dual Attention for Speaker and Utterance Verification [77.2346078109261]
我々は,統合ニューラルネットワークにおける話者発話二重注意(SUDA)の考え方を実装した。
提案するSUDAは,話者と発話情報ストリーム間のインタラクションを学習するためのアテンションマスク機構を備えている。
論文 参考訳(メタデータ) (2020-08-20T11:37:57Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。