論文の概要: Speech2Phone: A Novel and Efficient Method for Training Speaker
Recognition Models
- arxiv url: http://arxiv.org/abs/2002.11213v2
- Date: Fri, 18 Jun 2021 21:50:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 22:05:14.175266
- Title: Speech2Phone: A Novel and Efficient Method for Training Speaker
Recognition Models
- Title(参考訳): speech2phone : 話者認識モデルの新しい効率的な学習法
- Authors: Edresson Casanova, Arnaldo Candido Junior, Christopher Shulby,
Frederico Santos de Oliveira, Lucas Rafael Stefanel Gris, Hamilton Pereira da
Silva, Sandra Maria Aluisio, Moacir Antonelli Ponti
- Abstract要約: そこで本研究では,小規模あるいは低リソースのデータセットを用いた話者認識のための学習モデルを提案する。
この方法は、他のSOTA(State-Of-The-Art)メソッドよりも少ないデータを必要とする。
- 参考スコア(独自算出の注目度): 0.697505859813853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we present an efficient method for training models for speaker
recognition using small or under-resourced datasets. This method requires less
data than other SOTA (State-Of-The-Art) methods, e.g. the Angular Prototypical
and GE2E loss functions, while achieving similar results to those methods. This
is done using the knowledge of the reconstruction of a phoneme in the speaker's
voice. For this purpose, a new dataset was built, composed of 40 male speakers,
who read sentences in Portuguese, totaling approximately 3h. We compare the
three best architectures trained using our method to select the best one, which
is the one with a shallow architecture. Then, we compared this model with the
SOTA method for the speaker recognition task: the Fast ResNet-34 trained with
approximately 2,000 hours, using the loss functions Angular Prototypical and
GE2E. Three experiments were carried out with datasets in different languages.
Among these three experiments, our model achieved the second best result in two
experiments and the best result in one of them. This highlights the importance
of our method, which proved to be a great competitor to SOTA speaker
recognition models, with 500x less data and a simpler approach.
- Abstract(参考訳): 本稿では,小型または未資源データセットを用いた話者認識モデルの効率的な学習手法を提案する。
この方法は、Angular PrototypealやGE2E損失関数など、他のSOTA(State-Of-The-Art)メソッドよりも少ないデータを必要とする。
これは、話者の声における音素の再構成に関する知識を用いて行われる。
この目的のために、40人の男性の話者からなる新しいデータセットが作られ、ポルトガル語で文章を読み、合計で約3時間であった。
我々の手法を用いて訓練された3つの最高のアーキテクチャを比較して、最も優れたアーキテクチャを選択します。
約2000時間で訓練されたFast ResNet-34は、Angular PrototypealとGE2Eの損失関数を用いて、このモデルを話者認識タスクのSOTA法と比較した。
異なる言語でデータセットを用いて3つの実験を行った。
これら3つの実験のうち,2つの実験で2番目によい結果が得られ,そのうちの1つで最高の結果が得られた。
このことは、500倍少ないデータとシンプルなアプローチで、SOTA話者認識モデルと競合することが証明された、我々の方法の重要性を強調している。
関連論文リスト
- Mispronunciation detection using self-supervised speech representations [10.010024759851142]
本稿では,第2言語学習者の誤発音検出作業におけるSSLモデルの利用について検討する。
そこで本研究では,1)母国英語データを用いた音声認識モデルの訓練,2)非母国英語データを用いた目標タスクのためのモデルを直接訓練する,という2つのダウンストリームアプローチを比較した。
論文 参考訳(メタデータ) (2023-07-30T21:20:58Z) - A Light Weight Model for Active Speaker Detection [7.253335671577093]
入力候補を減らし、2次元と3次元の畳み込みを音声・視覚特徴抽出に分割し、計算量が少ないゲート再帰ユニット(GRU)をクロスモーダルモデリングに応用し、軽量な能動話者検出アーキテクチャを構築した。
AVA-ActiveSpeakerデータセットの実験結果は、我々のフレームワークが競合的なmAP性能(94.1%対94.2%)を達成することを示している。
私たちのフレームワークは、良好な堅牢性を示すColumbiaデータセットでもうまく機能します。
論文 参考訳(メタデータ) (2023-03-08T08:40:56Z) - Learning Phone Recognition from Unpaired Audio and Phone Sequences Based
on Generative Adversarial Network [58.82343017711883]
そこで本研究では,不適切な音声系列や発話から直接学習する方法について検討する。
GAN訓練を第1段階に導入し,無声音声と音声シーケンスのマッピング関係を求める。
第2段階では、発電機の出力からトレーニングするために別のHMMモデルが導入され、性能が向上する。
論文 参考訳(メタデータ) (2022-07-29T09:29:28Z) - CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command
Recognition [91.33781557979819]
新しいデータセットであるCantonese In-car Audio-Visual Speech Recognition (CI-AVSR)を導入する。
カントン語話者30人が記録した200の車載コマンドの4,984サンプル(8.3時間)で構成されている。
当社のデータセットのクリーンバージョンと拡張バージョンの両方について、詳細な統計情報を提供しています。
論文 参考訳(メタデータ) (2022-01-11T06:32:12Z) - A transfer learning based approach for pronunciation scoring [7.98890440106366]
携帯電話レベルの発音は、人間のアノテータよりもはるかにパフォーマンスが低い、難しい作業である。
標準システムは、ネイティブデータのみを持つ自動音声認識(ASR)のために訓練されたモデルを使用して、フレーズで各電話機にスコアを生成する。
本稿では、ASRで訓練されたモデルを活用し、発音評価のタスクに適応するトランスファー学習に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-11-01T14:37:06Z) - Intent Classification Using Pre-Trained Embeddings For Low Resource
Languages [67.40810139354028]
言語固有の音声認識に依存しない音声理解システムを構築することは、言語処理において重要でない問題である。
本稿では,事前学習した音響モデルを用いて,低資源シナリオにおける音声言語理解を実現するための比較研究を提案する。
私たちは、ハイ、ミディアム、低リソースシナリオをシミュレートするために、それぞれ異なるデータサイズを持つ英語、Sinhala、Tamilの3つの異なる言語で実験を行います。
論文 参考訳(メタデータ) (2021-10-18T13:06:59Z) - Ranking Creative Language Characteristics in Small Data Scenarios [52.00161818003478]
DirectRankerを適用して、小さなデータでクリエイティブ言語をランク付けするための、新しいディープモデルを提供します。
スパーストレーニングデータを用いた実験により、標準的なニューラルネットワークのランク付け手法の性能は小さなデータセットで崩壊するが、DirectRankerは依然として有効であることがわかった。
論文 参考訳(メタデータ) (2020-10-23T18:57:47Z) - Generative Adversarial Training Data Adaptation for Very Low-resource
Automatic Speech Recognition [31.808145263757105]
我々は、CycleGANベースの非並列音声変換技術を用いて、テスト話者の音声に近いラベル付きトレーニングデータをフォージする。
AinuとMboshiの2つの低リソースコーパスに対する話者適応手法の評価を行った。
論文 参考訳(メタデータ) (2020-05-19T07:35:14Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。