論文の概要: Deep Discriminative Feature Learning for Accent Recognition
- arxiv url: http://arxiv.org/abs/2011.12461v4
- Date: Wed, 25 Aug 2021 09:18:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 03:22:40.539433
- Title: Deep Discriminative Feature Learning for Accent Recognition
- Title(参考訳): アクセント認識のための深層識別特徴学習
- Authors: Wei Wang, Chao Zhang, Xiaopei Wu
- Abstract要約: 我々は、畳み込み型リカレントニューラルネットワークをフロントエンドエンコーダとして採用し、レカレントニューラルネットワークを用いて局所的特徴を統合し、発話レベルのアクセント表現を行う。
本稿では,2020年のアクセント認識チャレンジにおいて,識別学習手法を用いたネットワークがアクセント分類におけるベースラインシステムよりもはるかに優れていることを示す。
- 参考スコア(独自算出の注目度): 14.024346215923972
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accent recognition with deep learning framework is a similar work to deep
speaker identification, they're both expected to give the input speech an
identifiable representation.
Compared with the individual-level features learned by speaker identification
network, the deep accent recognition work throws a more challenging point that
forging group-level accent features for speakers.
In this paper, we borrow and improve the deep speaker identification
framework to recognize accents, in detail, we adopt Convolutional Recurrent
Neural Network as front-end encoder and integrate local features using
Recurrent Neural Network to make an utterance-level accent representation.
Novelly, to address overfitting, we simply add Connectionist Temporal
Classification based speech recognition auxiliary task during training, and for
ambiguous accent discrimination, we introduce some powerful discriminative loss
functions in face recognition works to enhance the discriminative power of
accent features.
We show that our proposed network with discriminative training method
(without data-augment) is significantly ahead of the baseline system on the
accent classification track in the Accented English Speech Recognition
Challenge 2020, where the loss function Circle-Loss has achieved the best
discriminative optimization for accent representation.
- Abstract(参考訳): ディープラーニングフレームワークによるアクセント認識は、deep speaker identificationと同じような作業であり、どちらも入力音声に識別可能な表現を与えることが期待されている。
話者識別ネットワークによって学習された個々のレベル機能と比較すると、深いアクセント認識作業は、グループレベルのアクセント機能をスピーカーに鍛えるというより難しいポイントを投げかけます。
本稿では,アクセント認識のための深層話者識別フレームワークの借用と改良を行い,畳み込み型リカレントニューラルネットワークをフロントエンドエンコーダとして採用し,レカレントニューラルネットワークを用いて局所的特徴を統合し,発話レベルのアクセント表現を実現する。
最近では、過剰適合に対処するために、訓練中にコネクティニスト時間分類に基づく音声認識補助タスクを単に追加し、曖昧なアクセント識別のために、アクセント特徴の識別力を高めるために、顔認識作業にいくつかの強力な識別的損失関数を導入する。
本稿では,アクセント認識チャレンジ2020におけるアクセント分類のベースラインシステムよりも,識別訓練法(データ拡張なし)を用いたネットワークの方がはるかに優れており,このネットワークは,アクセント表現の最適な識別最適化を実現していることを示す。
関連論文リスト
- Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。
従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。
本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T19:52:10Z) - Explaining Spectrograms in Machine Learning: A Study on Neural Networks for Speech Classification [2.4472308031704073]
本研究では,ニューラルネットワークで学習した音声の正確な分類のための識別パターンについて検討する。
母音分類のためのニューラルネットワークのアクティベーションと特徴を調べることで、スペクトログラムでネットワークが何を見るかについての洞察を得る。
論文 参考訳(メタデータ) (2024-07-10T07:37:18Z) - Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。
あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。
トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T16:10:58Z) - Deep Neural Convolutive Matrix Factorization for Articulatory
Representation Decomposition [48.56414496900755]
この研究は、コンボリューティブスパース行列分解のニューラル実装を用いて、調音データを解釈可能なジェスチャーとジェスチャースコアに分解する。
音素認識実験も実施され、ジェスチャースコアが実際に音韻情報のコード化に成功していることが示された。
論文 参考訳(メタデータ) (2022-04-01T14:25:19Z) - Analysis of French Phonetic Idiosyncrasies for Accent Recognition [0.8602553195689513]
発音の違い、アクセントと音声のイントネーションは、音声認識の最も一般的な問題の1つである。
従来の機械学習技術と畳み込みニューラルネットワークを使い、古典的手法ではこの問題を解決するのに十分な効率が得られていないことを示す。
本稿では,フランス語のアクセントに焦点をあてるとともに,そのスペクトルに対するフランス語の慣用音の影響を理解することによって,その限界を識別する。
論文 参考訳(メタデータ) (2021-10-18T10:50:50Z) - Accented Speech Recognition Inspired by Human Perception [0.0]
本論文では,アクセント音声の認識のためのパフォーマンス改善の可能性を評価するために,人間の知覚に触発された手法を検討する。
我々は、複数のアクセントへの事前露出、graphemeと音素に基づく発音、ドロップアウト、特にアクセントモデリングに関連付けられるニューラルネットワークのレイヤの識別の4つの手法を検討した。
本研究では, 人間の知覚に基づく手法が, WER の低減と, ニューラルネットワークにおけるアクセント音声のモデル化方法の理解に有望であることを示した。
論文 参考訳(メタデータ) (2021-04-09T22:35:09Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z) - AccentDB: A Database of Non-Native English Accents to Assist Neural
Speech Recognition [3.028098724882708]
まず、ロバストなASRシステムのトレーニングとテストのために、非ネイティブアクセントで音声サンプルの精度の高いデータベースを作成するための重要な要件について説明する。
次に、私たちによって収集された4つのインド英語アクセントのサンプルを含む、そのようなデータベースであるAccentDBを紹介します。
アクセント分類モデルをいくつか提示し, アクセントクラスに対して徹底的に評価する。
論文 参考訳(メタデータ) (2020-05-16T12:38:30Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z) - Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。
SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。
実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2020-01-23T05:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。