論文の概要: Speaker conditioning of acoustic models using affine transformation for
multi-speaker speech recognition
- arxiv url: http://arxiv.org/abs/2111.00320v1
- Date: Sat, 30 Oct 2021 19:49:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 03:12:12.285191
- Title: Speaker conditioning of acoustic models using affine transformation for
multi-speaker speech recognition
- Title(参考訳): マルチスピーカ音声認識におけるアフィン変換を用いた音響モデルの話者条件付け
- Authors: Midia Yousefi, John H.L. Hanse
- Abstract要約: 本研究は,重畳音声シナリオにおけるターゲット話者の単一チャンネル音声認識の問題に対処する。
提案手法では,音響モデルの隠れ表現を話者補助情報によって変調し,所望の話者のみを認識する。
WSJコーパスの実験により,提案手法は,複数話者音声認識のための音響特徴を持つ話者補助情報を融合する有効な解法であることが示された。
- 参考スコア(独自算出の注目度): 5.5332967798665305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study addresses the problem of single-channel Automatic Speech
Recognition of a target speaker within an overlap speech scenario. In the
proposed method, the hidden representations in the acoustic model are modulated
by speaker auxiliary information to recognize only the desired speaker. Affine
transformation layers are inserted into the acoustic model network to integrate
speaker information with the acoustic features. The speaker conditioning
process allows the acoustic model to perform computation in the context of
target-speaker auxiliary information. The proposed speaker conditioning method
is a general approach and can be applied to any acoustic model architecture.
Here, we employ speaker conditioning on a ResNet acoustic model. Experiments on
the WSJ corpus show that the proposed speaker conditioning method is an
effective solution to fuse speaker auxiliary information with acoustic features
for multi-speaker speech recognition, achieving +9% and +20% relative WER
reduction for clean and overlap speech scenarios, respectively, compared to the
original ResNet acoustic model baseline.
- Abstract(参考訳): 本研究では,重複音声シナリオにおける対象話者の単一チャネル自動音声認識の問題に対処する。
提案手法では,音響モデルの隠れ表現を話者補助情報によって変調し,所望の話者のみを認識する。
音響モデルネットワークにアフィン変換層を挿入し、話者情報と音響的特徴を統合する。
スピーカコンディショニングプロセスにより,音響モデルが対象話者補助情報の文脈で計算を行うことができる。
提案手法は一般的なアプローチであり,任意の音響モデルアーキテクチャに適用可能である。
本稿では,話者コンディショニングをresnet音響モデルに適用する。
wsjコーパスにおける実験により,提案手法は,複数話者音声認識における話者補助情報と音響特徴を融合する有効な解であり,従来のresnet音響モデルのベースラインと比較して,それぞれ+9%,+20%の相対 wer 削減を達成していることがわかった。
関連論文リスト
- Investigation of Speaker Representation for Target-Speaker Speech Processing [49.110228525976794]
本論文は,目標話者音声処理タスクに好まれる話者埋め込みとは何か,という根本的な問題に対処することを目的としている。
TS-ASR, TSE, p-VADタスクでは, 対象話者の事前録音音声からの話者埋め込みを, 対象話者の同一性から直接1ホットベクトルの形で計算する事前学習話者エンコーダを比較した。
分析の結果,話者検証性能はTSタスク性能とは多少無関係であり,一ホットベクトルは入学者ベースよりも優れており,最適埋め込みは入力混合に依存していることがわかった。
論文 参考訳(メタデータ) (2024-10-15T03:58:13Z) - ELF: Encoding Speaker-Specific Latent Speech Feature for Speech Synthesis [5.824018496599849]
多数の話者をモデル化する新しい手法を提案する。
訓練されたマルチスピーカーモデルのように、話者の全体的な特徴を詳細に表現することができる。
論文 参考訳(メタデータ) (2023-11-20T13:13:24Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Exploring Speaker-Related Information in Spoken Language Understanding
for Better Speaker Diarization [7.673971221635779]
多人数会議におけるセマンティックコンテンツから話者関連情報を抽出する手法を提案する。
AISHELL-4とAliMeetingの2つのデータセットを用いた実験により,本手法は音響のみの話者ダイアリゼーションシステムよりも一貫した改善を実現することが示された。
論文 参考訳(メタデータ) (2023-05-22T11:14:19Z) - Self supervised learning for robust voice cloning [3.7989740031754806]
自己教師型フレームワークで学習した特徴を用いて,高品質な音声表現を生成する。
学習した特徴は、事前訓練された発話レベルの埋め込みや、非減衰タコトロンアーキテクチャへの入力として使用される。
この手法により、ラベルなしマルチスピーカデータセットでモデルをトレーニングし、未知の話者埋め込みを用いて話者の声を模倣することができる。
論文 参考訳(メタデータ) (2022-04-07T13:05:24Z) - Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech [62.95422526044178]
マルチスピーカTSモデルのトレーニングアルゴリズムとして,MAML(Model Agnostic Meta-Learning)を用いる。
その結果,Meta-TTSは話者適応ベースラインよりも適応ステップが少ない少数のサンプルから高い話者類似性音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-07T09:53:31Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - Content-Aware Speaker Embeddings for Speaker Diarisation [3.6398652091809987]
コンテンツ認識型話者埋め込み(CASE)アプローチを提案する。
ケースファクターは話者認識から自動音声認識(asr)を導き、話者特性のモデル化に焦点をあてる。
caseは従来の方法に比べて17.8%の相対的な話者誤り率削減を達成した。
論文 参考訳(メタデータ) (2021-02-12T12:02:03Z) - Joint Speaker Counting, Speech Recognition, and Speaker Identification
for Overlapped Speech of Any Number of Speakers [38.3469744871394]
エンドツーエンドの話者分散音声認識モデルを提案する。
重複した音声における話者カウント、音声認識、話者識別を統一する。
論文 参考訳(メタデータ) (2020-06-19T02:05:18Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。