論文の概要: Universal speaker recognition encoders for different speech segments
duration
- arxiv url: http://arxiv.org/abs/2210.16231v1
- Date: Fri, 28 Oct 2022 16:06:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 17:52:33.094625
- Title: Universal speaker recognition encoders for different speech segments
duration
- Title(参考訳): 音声セグメント長の異なるユニバーサル話者音声認識エンコーダ
- Authors: Sergey Novoselov, Vladimir Volokhov, Galina Lavrentyeva
- Abstract要約: プールされた短い音声セグメントと長い音声セグメントを同時に訓練するシステムでは、最適な検証結果が得られない。
我々は,任意のタイプのニューラルネットワークアーキテクチャに対して,ユニバーサル話者エンコーダを訓練するための簡単なレシピについて述べる。
- 参考スコア(独自算出の注目度): 7.104489204959814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Creating universal speaker encoders which are robust for different acoustic
and speech duration conditions is a big challenge today. According to our
observations systems trained on short speech segments are optimal for short
phrase speaker verification and systems trained on long segments are superior
for long segments verification. A system trained simultaneously on pooled short
and long speech segments does not give optimal verification results and usually
degrades both for short and long segments. This paper addresses the problem of
creating universal speaker encoders for different speech segments duration. We
describe our simple recipe for training universal speaker encoder for any type
of selected neural network architecture. According to our evaluation results of
wav2vec-TDNN based systems obtained for NIST SRE and VoxCeleb1 benchmarks the
proposed universal encoder provides speaker verification improvements in case
of different enrollment and test speech segment duration. The key feature of
the proposed encoder is that it has the same inference time as the selected
neural network architecture.
- Abstract(参考訳): 異なる音響および音声持続時間条件でロバストなユニバーサルスピーカーエンコーダを作成することは、今日では大きな課題である。
短い音声セグメントで訓練されたシステムは、短いフレーズ話者の検証に最適であり、長いセグメントで訓練されたシステムは、長いセグメントの検証に優れている。
プールされた短い音声セグメントと長い音声セグメントを同時に訓練したシステムは、最適な検証結果を与えず、通常、短いセグメントと長いセグメントの両方で劣化する。
本稿では,音声セグメントの持続時間が異なるユニバーサル話者エンコーダを作成する問題に対処する。
我々は,任意のタイプのニューラルネットワークアーキテクチャに対して,ユニバーサル話者エンコーダを訓練するための簡単なレシピについて述べる。
nist sreおよびvoxceleb1ベンチマークで得られたwav2vec-tdnnに基づくシステムの評価結果に基づき,提案するユニバーサルエンコーダは,音声区間長の異なる場合の話者照合の改善を提供する。
提案するエンコーダの重要な特徴は、選択したニューラルネットワークアーキテクチャと同じ推論時間を持つことである。
関連論文リスト
- DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding [51.32965203977845]
本稿では,連続的な音声エンコーダ出力の代わりに離散音声単位(DSU)を用いることを提案する。
提案モデルでは, 未知領域からの音声入力に対する頑健な性能と, 音声質問応答における指示追従能力を示す。
この結果から,ASRタスクとデータセットは,音声質問応答タスクの指導訓練に必須ではないことが示唆された。
論文 参考訳(メタデータ) (2024-06-13T17:28:13Z) - Fill in the Gap! Combining Self-supervised Representation Learning with Neural Audio Synthesis for Speech Inpainting [14.402357651227003]
本稿では,音声信号の欠落部分を周囲の文脈から再構成する音声認識用SSLモデルについて検討する。
その目的のために、SSLエンコーダ、すなわち HuBERT とニューラルヴォコーダ、すなわち HiFiGAN を組み合わせてデコーダの役割を演じる。
論文 参考訳(メタデータ) (2024-05-30T14:41:39Z) - Towards Word-Level End-to-End Neural Speaker Diarization with Auxiliary
Network [28.661704280484457]
補助的ネットワークを用いたワードレベル終端ニューラルダイアリゼーション(WEEND)を提案する。
WEENDは高品質なダイアリゼーションテキストを提供する可能性を秘めている。
論文 参考訳(メタデータ) (2023-09-15T15:48:45Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - E2E Segmenter: Joint Segmenting and Decoding for Long-Form ASR [38.79441296832869]
ストリーミング方式でセグメント境界を予測できるエンドツーエンドのASRモデルを提案する。
我々は,最先端のコンフォーマーRNN-Tモデルにおいて,VADセグメンタベースラインと比較して,WERが8.5%向上し,中央値の遅延が250ms減少したことを実証した。
論文 参考訳(メタデータ) (2022-04-22T15:13:12Z) - Revisiting joint decoding based multi-talker speech recognition with DNN
acoustic model [34.061441900912136]
このようなスキームは準最適であり、すべての話者を共同で復号する原理的解法を提案する。
本研究では,全ての話者の関節後部状態を予測するために音響モデルを改良し,話者への音声信号の一部の帰属に関する不確実性をネットワークが表現できるようにする。
論文 参考訳(メタデータ) (2021-10-31T09:28:04Z) - SpEx: Multi-Scale Time Domain Speaker Extraction Network [89.00319878262005]
話者抽出は、ターゲット話者の声を複数話者環境から抽出することで、人間の選択的な聴覚的注意を模倣することを目的としている。
周波数領域の抽出を行い、抽出した大きさと推定位相スペクトルから時間領域信号を再構成することが一般的である。
本研究では,混合音声を音声信号を大域・位相スペクトルに分解する代わりに,マルチスケールの埋め込み係数に変換する時間領域話者抽出ネットワーク(SpEx)を提案する。
論文 参考訳(メタデータ) (2020-04-17T16:13:06Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。