論文の概要: Phonetic-aware speaker embedding for far-field speaker verification
- arxiv url: http://arxiv.org/abs/2311.15627v1
- Date: Mon, 27 Nov 2023 08:45:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 16:24:58.227175
- Title: Phonetic-aware speaker embedding for far-field speaker verification
- Title(参考訳): 遠距離話者照合のための音声認識型話者埋め込み
- Authors: Zezhong Jin, Youzhi Tu, Man-Wai Mak
- Abstract要約: 遠距離場話者検証のための音声コンテンツを活用するための共同学習音声認識と話者認識フレームワークを提案する。
このフレームワークは、話者埋め込みネットワークのフレームベースの特徴マップとwav2vecのベクトルとをマッチングすることにより、話者埋め込みが音声情報を保存することを奨励する。
提案したフレームワークは,VOiCES Challenge 2019評価セットとVoxCeleb1テストセットの標準話者埋め込みよりも優れていた。
- 参考スコア(独自算出の注目度): 25.50311094643337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When a speaker verification (SV) system operates far from the sound sourced,
significant challenges arise due to the interference of noise and
reverberation. Studies have shown that incorporating phonetic information into
speaker embedding can improve the performance of text-independent SV. Inspired
by this observation, we propose a joint-training speech recognition and speaker
recognition (JTSS) framework to exploit phonetic content for far-field SV. The
framework encourages speaker embeddings to preserve phonetic information by
matching the frame-based feature maps of a speaker embedding network with
wav2vec's vectors. The intuition is that phonetic information can preserve
low-level acoustic dynamics with speaker information and thus partly compensate
for the degradation due to noise and reverberation. Results show that the
proposed framework outperforms the standard speaker embedding on the VOiCES
Challenge 2019 evaluation set and the VoxCeleb1 test set. This indicates that
leveraging phonetic information under far-field conditions is effective for
learning robust speaker representations.
- Abstract(参考訳): スピーカ検証(sv)システムが音源から遠く離れた場所で動作した場合、ノイズや残響の干渉によって重大な課題が発生する。
話者埋め込みに音声情報を組み込むことで、テキストに依存しないSVの性能を向上させることが研究で示されている。
この観測に触発されて、遠距離場SVのための音声コンテンツを利用する共同学習音声認識と話者認識(JTSS)フレームワークを提案する。
このフレームワークは、話者埋め込みネットワークのフレームベースの特徴マップとwav2vecのベクトルをマッチングすることにより、話者埋め込みが音声情報を保存することを奨励する。
直感的には、音声情報は話者情報による低レベル音響力学を保ち、雑音や残響による劣化を部分的に補うことができる。
提案したフレームワークは,VOiCES Challenge 2019評価セットとVoxCeleb1テストセットの標準話者埋め込みよりも優れていた。
このことは,遠距離条件下で音声情報を活用することが,頑健な話者表現の学習に有効であることを示す。
関連論文リスト
- Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Exploring Speaker-Related Information in Spoken Language Understanding
for Better Speaker Diarization [7.673971221635779]
多人数会議におけるセマンティックコンテンツから話者関連情報を抽出する手法を提案する。
AISHELL-4とAliMeetingの2つのデータセットを用いた実験により,本手法は音響のみの話者ダイアリゼーションシステムよりも一貫した改善を実現することが示された。
論文 参考訳(メタデータ) (2023-05-22T11:14:19Z) - PL-EESR: Perceptual Loss Based END-TO-END Robust Speaker Representation
Extraction [90.55375210094995]
音声強調は、背景雑音の抑制による音声信号の知覚品質の向上を目的としている。
本稿では,頑健な話者表現抽出のためのエンドツーエンドディープラーニングフレームワークPL-EESRを提案する。
論文 参考訳(メタデータ) (2021-10-03T07:05:29Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - Phoneme-aware and Channel-wise Attentive Learning for Text
DependentSpeaker Verification [21.826585075806573]
本稿では,テキスト依存型話者検証(SV)のための音素認識型マルチタスク学習ネットワークとチャネルワイド学習戦略を提案する。
提案システムはテキスト依存型SVの優れた結果を得る。
論文 参考訳(メタデータ) (2021-06-25T09:11:18Z) - Content-Aware Speaker Embeddings for Speaker Diarisation [3.6398652091809987]
コンテンツ認識型話者埋め込み(CASE)アプローチを提案する。
ケースファクターは話者認識から自動音声認識(asr)を導き、話者特性のモデル化に焦点をあてる。
caseは従来の方法に比べて17.8%の相対的な話者誤り率削減を達成した。
論文 参考訳(メタデータ) (2021-02-12T12:02:03Z) - FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and
Fusing Fine-Grained Voice Fragments With Attention [66.77490220410249]
本稿では、Wav2Vec 2.0から、音源話者からの発声の潜在音声構造を求めるFragmentVCを提案する。
FragmentVCは、ターゲット話者発話からきめ細かい音声断片を抽出し、所望の発話に融合することができる。
提案手法は, コンテンツと話者情報との絡み合いを考慮せずに, 再構成損失を学習する。
論文 参考訳(メタデータ) (2020-10-27T09:21:03Z) - Active Speakers in Context [88.22935329360618]
能動話者検出のための現在の手法は、単一話者からの短期音声視覚情報をモデル化することに焦点を当てている。
本稿では,複数話者間の関係を長期にわたってモデル化する新しい表現であるActive Speaker Contextを紹介する。
実験の結果,構造的特徴アンサンブルはすでにアクティブな話者検出性能の恩恵を受けていることがわかった。
論文 参考訳(メタデータ) (2020-05-20T01:14:23Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z) - Robust Speaker Recognition Using Speech Enhancement And Attention Model [37.33388614967888]
音声強調と話者認識を個別に処理する代わりに、ディープニューラルネットワークを用いた共同最適化により、2つのモジュールを1つのフレームワークに統合する。
雑音に対するロバスト性を高めるため、時間と周波数領域のコンテキスト情報から得られた話者関連特徴を強調するために、多段階アテンション機構を用いる。
その結果,音声強調モデルと多段階アテンションモデルを用いた提案手法は,実験のほとんどの音響条件下では使用しない2つの強いベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-01-14T20:03:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。