論文の概要: Speaker-aware speech-transformer
- arxiv url: http://arxiv.org/abs/2001.01557v1
- Date: Thu, 2 Jan 2020 15:04:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-16 04:29:59.511170
- Title: Speaker-aware speech-transformer
- Title(参考訳): 話者認識型音声変換器
- Authors: Zhiyun Fan, Jie Li, Shiyu Zhou, Bo Xu
- Abstract要約: E2Eモデルの話者認識学習のための学習プラットフォームとしての音声変換器(ST)
話者対応音声変換器(SAST)は、話者注意モジュール(SAM)を備えた標準STである
- 参考スコア(独自算出の注目度): 18.017579835663057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, end-to-end (E2E) models become a competitive alternative to the
conventional hybrid automatic speech recognition (ASR) systems. However, they
still suffer from speaker mismatch in training and testing condition. In this
paper, we use Speech-Transformer (ST) as the study platform to investigate
speaker aware training of E2E models. We propose a model called Speaker-Aware
Speech-Transformer (SAST), which is a standard ST equipped with a speaker
attention module (SAM). The SAM has a static speaker knowledge block (SKB) that
is made of i-vectors. At each time step, the encoder output attends to the
i-vectors in the block, and generates a weighted combined speaker embedding
vector, which helps the model to normalize the speaker variations. The SAST
model trained in this way becomes independent of specific training speakers and
thus generalizes better to unseen testing speakers. We investigate different
factors of SAM. Experimental results on the AISHELL-1 task show that SAST
achieves a relative 6.5% CER reduction (CERR) over the speaker-independent (SI)
baseline. Moreover, we demonstrate that SAST still works quite well even if the
i-vectors in SKB all come from a different data source other than the acoustic
training set.
- Abstract(参考訳): 近年,従来のハイブリッド音声認識(ASR)システムの代替として,エンドツーエンド(E2E)モデルが登場している。
しかし、訓練とテストの条件において、話者のミスマッチに苦しむ。
本稿では,音声変換器(ST)を学習プラットフォームとして使用し,E2Eモデルの話者認識訓練について検討する。
本稿では,話者注意モジュール(SAM)を備えた標準STである話者認識音声変換器(SAST)を提案する。
SAM は i-vector で構成された静的話者知識ブロック (SKB) を備えている。
各段階において、エンコーダ出力はブロック内のiベクターに付随し、重み付けされた複合話者埋め込みベクトルを生成し、モデルが話者変動を正規化するのに役立つ。
このような方法でトレーニングされたSASTモデルは、特定のトレーニングスピーカーとは独立して、未確認のテストスピーカーをより一般化する。
SAMの様々な要因について検討する。
AISHELL-1タスクの実験結果は、SASTが話者非依存(SI)ベースラインに対して相対的に6.5%のCER還元(CERR)を達成することを示している。
さらに,skbのi-vectorsがすべて音響訓練セット以外の異なるデータソースから来ている場合でも,sastは十分に機能することを示す。
関連論文リスト
- One model to rule them all ? Towards End-to-End Joint Speaker
Diarization and Speech Recognition [50.055765860343286]
本稿では,共同話者ダイアリゼーションと音声認識のための新しい枠組みを提案する。
このフレームワークはSLIDARと呼ばれ、任意の長さの入力を処理でき、任意の数の話者を処理できる。
AMIコーパスからの単調録音実験により, 近接話者と遠距離話者の両方の発話シナリオにおける手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-10-02T23:03:30Z) - Speech-to-Speech Translation with Discrete-Unit-Based Style Transfer [53.72998363956454]
個別の自己教師付き表現を用いた音声音声合成(S2ST)は顕著な精度を達成している。
高品質な話者並列データの不足は、翻訳中にスタイル転送を学習する上での課題となる。
我々は、個別の自己教師付き音声表現と音色単位に基づいて、スタイル変換機能を備えたS2STパイプラインを設計する。
論文 参考訳(メタデータ) (2023-09-14T09:52:08Z) - Improving Target Speaker Extraction with Sparse LDA-transformed Speaker
Embeddings [5.4878772986187565]
対象話者抽出のためのクラス分離性を明確にした簡易な話者キューを提案する。
提案はSI-SDRiの9.9%の相対的な改善を示す。
19.4dBのSI-SDRiと3.78のPSSQでは、私たちの最高のTSEシステムは現在のSOTAシステムよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-01-16T06:30:48Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - Hypothesis Stitcher for End-to-End Speaker-attributed ASR on Long-form
Multi-talker Recordings [42.17790794610591]
近年, 話者カウント, 音声認識, 話者識別を共同で行うために, 話者適応型自動音声認識(SA-ASR)モデルが提案されている。
このモデルは,未知の話者数からなる単音重複音声に対して,低話者分散単語誤り率(SA-WER)を達成した。
E2E SA-ASRモデルがトレーニング中のサンプルよりもはるかに長い記録に有効かどうかはまだ調査されていない。
論文 参考訳(メタデータ) (2021-01-06T03:36:09Z) - Investigation of End-To-End Speaker-Attributed ASR for Continuous
Multi-Talker Recordings [40.99930744000231]
話者プロファイルが存在しないケースに対処することで、以前の作業を拡張します。
E2E SA-ASRモデルの内部話者表現を用いて話者カウントとクラスタリングを行う。
また,E2E SA-ASRトレーニングの基準ラベルの簡単な修正も提案する。
論文 参考訳(メタデータ) (2020-08-11T06:41:55Z) - Investigation of Speaker-adaptation methods in Transformer based ASR [8.637110868126548]
本稿では,トランスフォーマモデルを用いて音声認識性能の向上を図りながら,エンコーダ入力に話者情報を組み込む方法について検討する。
話者情報を各話者に対する話者埋め込み形式で提示する。
モデルに話者埋め込みを組み込むことにより,ベースライン上の単語誤り率を改善する。
論文 参考訳(メタデータ) (2020-08-07T16:09:03Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z) - Unsupervised Speaker Adaptation using Attention-based Speaker Memory for
End-to-End ASR [61.55606131634891]
エンドツーエンド音声認識(E2E)のためのニューラルチューリングマシンにインスパイアされた教師なし話者適応手法を提案する。
提案モデルでは,学習データから抽出した話者i-vectorを格納し,注意機構を通じてメモリから関連i-vectorを読み取るメモリブロックを含む。
テスト時に補助的な話者埋め込み抽出システムを必要としないMベクトルは、単話者発話のiベクトルと類似の単語誤り率(WER)を達成し、話者変化がある発話のWERを著しく低下させることを示す。
論文 参考訳(メタデータ) (2020-02-14T18:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。