論文の概要: Scaling to Many Languages with a Triaged Multilingual Text-Dependent and
Text-Independent Speaker Verification System
- arxiv url: http://arxiv.org/abs/2104.02125v1
- Date: Mon, 5 Apr 2021 19:48:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 14:17:13.754367
- Title: Scaling to Many Languages with a Triaged Multilingual Text-Dependent and
Text-Independent Speaker Verification System
- Title(参考訳): 多言語テキスト依存およびテキスト非依存話者照合システムによる多言語へのスケーリング
- Authors: Roza Chojnacka, Jason Pelecanos, Quan Wang, Ignacio Lopez Moreno
- Abstract要約: これは46言語の規模でのスピーカー検証システムの最初の研究です。
多言語テキスト依存およびテキスト非依存コンポーネントからなるハイブリッドセットアップの使用を検討する。
- 参考スコア(独自算出の注目度): 9.361951528451298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work we study some of the challenges associated with scaling speaker
recognition systems to multiple languages. To the best of our knowledge, this
is the first study of speaker verification systems at the scale of 46
languages. Training models for each of the many languages can be time and
energy demanding in addition to costly. Low resource languages present
additional difficulties. The problem is framed from the perspective of using a
smart speaker device with interactions consisting of a wake-up keyword
(text-dependent) followed by a speech query (text-independent).
We examine the use of a hybrid setup consisting of multilingual
text-dependent and text-independent components. Experimental evidence suggests
that training on multiple languages can generalize to unseen varieties while
maintaining performance on seen varieties. We also found that it can reduce
computational requirements for training models by an order of magnitude.
Furthermore, during model inference on English data, we observe that leveraging
a triage framework can reduce the number of calls to the more computationally
expensive text-independent system by 73% (and reduce latency by 60%) while
maintaining an EER no worse than the text-independent setup.
- Abstract(参考訳): 本研究では,話者認識システムを複数の言語に拡張する際の課題について検討する。
私たちの知る限りでは、これは46言語規模の話者検証システムに関する最初の研究です。
多くの言語のトレーニングモデルは、コストのかかるものに加えて、時間とエネルギーの要求である。
低リソース言語は追加の困難をもたらす。
この問題は、ウェイクアップキーワード(テキスト依存)と音声クエリ(テキスト非依存)からなるインタラクションを備えたスマートスピーカーデバイスを使用するという観点からフレーム化されている。
本稿では,多言語テキスト依存とテキスト非依存の複合構成について検討する。
実験的な証拠は、複数の言語の訓練が、目に見えない品種のパフォーマンスを維持しながら、目に見えない品種に一般化できることを示唆している。
また、トレーニングモデルの計算要件を桁違いに削減できることも分かりました。
さらに、英語データに対するモデル推論において、トリアージフレームワークを利用することで、より計算コストのかかるテキスト非依存システムへの呼び出し回数を73%削減し、遅延を60%削減し、EERをテキスト非依存システムよりも悪く維持できることを示した。
関連論文リスト
- An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - MParrotTTS: Multilingual Multi-speaker Text to Speech Synthesis in Low
Resource Setting [16.37243395952266]
MParrotTTSは、TTS合成モデルである。
最小限の教師付きデータを持つ新しい言語に適応し、自己教師付きバックボーンのトレーニング中に見えない言語に一般化する。
音声の自然度と話者類似度を並列・言語間合成における6言語について検討した。
論文 参考訳(メタデータ) (2023-05-19T13:43:36Z) - TextMI: Textualize Multimodal Information for Integrating Non-verbal
Cues in Pre-trained Language Models [5.668457303716451]
マルチモーダルな行動分析タスクのための汎用的,競争的なベースラインとして,TextMIを提案する。
我々のアプローチは、モデルの複雑さを著しく減らし、モデルの判断に解釈可能性を追加し、様々なタスクに適用できます。
論文 参考訳(メタデータ) (2023-03-27T17:54:32Z) - Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with
Unsupervised Text Pretraining [65.30528567491984]
本稿では,対象言語に対するテキストのみのデータを用いたゼロショット多言語TS法を提案する。
テキストのみのデータを使用することで、低リソース言語向けのTSシステムの開発が可能になる。
評価の結果,文字誤り率が12%未満のゼロショットTSは,見当たらない言語では高い知能性を示した。
論文 参考訳(メタデータ) (2023-01-30T00:53:50Z) - Mix and Match: An Empirical Study on Training Corpus Composition for
Polyglot Text-To-Speech (TTS) [3.57486761615991]
モノリンガルコーパスのみを用いたマルチリンガルニューラルテキスト音声合成(NTTS)モデルのトレーニングが,音声クローンベースのポリグロットNTTSシステム構築の一般的な方法として登場した。
学習コーパスの構成が多言語音声合成の質にどのように影響するかを理解することが不可欠である。
論文 参考訳(メタデータ) (2022-07-04T15:23:06Z) - Few-Shot Cross-Lingual TTS Using Transferable Phoneme Embedding [55.989376102986654]
本稿では,言語間テキスト-音声間問題に対処するための移動可能な音素埋め込みフレームワークについて,数ショット設定で検討する。
本稿では,音素ベースのTSモデルと,異なる言語からの音素を学習潜在空間に投影するコードブックモジュールからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-27T11:24:40Z) - Discovering Phonetic Inventories with Crosslingual Automatic Speech
Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。
独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文 参考訳(メタデータ) (2022-01-26T22:12:55Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。