論文の概要: Accented Speech Recognition Inspired by Human Perception
- arxiv url: http://arxiv.org/abs/2104.04627v1
- Date: Fri, 9 Apr 2021 22:35:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 14:29:21.291962
- Title: Accented Speech Recognition Inspired by Human Perception
- Title(参考訳): 人間の知覚に触発されたアクセント音声認識
- Authors: Xiangyun Chu (1), Elizabeth Combs (1), Amber Wang (1), Michael Picheny
(2) ((1) Center for Data Science, New York University, (2) Courant Computer
Science and Center for Data Science, New York University)
- Abstract要約: 本論文では,アクセント音声の認識のためのパフォーマンス改善の可能性を評価するために,人間の知覚に触発された手法を検討する。
我々は、複数のアクセントへの事前露出、graphemeと音素に基づく発音、ドロップアウト、特にアクセントモデリングに関連付けられるニューラルネットワークのレイヤの識別の4つの手法を検討した。
本研究では, 人間の知覚に基づく手法が, WER の低減と, ニューラルネットワークにおけるアクセント音声のモデル化方法の理解に有望であることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While improvements have been made in automatic speech recognition performance
over the last several years, machines continue to have significantly lower
performance on accented speech than humans. In addition, the most significant
improvements on accented speech primarily arise by overwhelming the problem
with hundreds or even thousands of hours of data. Humans typically require much
less data to adapt to a new accent. This paper explores methods that are
inspired by human perception to evaluate possible performance improvements for
recognition of accented speech, with a specific focus on recognizing speech
with a novel accent relative to that of the training data. Our experiments are
run on small, accessible datasets that are available to the research community.
We explore four methodologies: pre-exposure to multiple accents, grapheme and
phoneme-based pronunciations, dropout (to improve generalization to a novel
accent), and the identification of the layers in the neural network that can
specifically be associated with accent modeling. Our results indicate that
methods based on human perception are promising in reducing WER and
understanding how accented speech is modeled in neural networks for novel
accents.
- Abstract(参考訳): 過去数年間、自動音声認識の性能は改善されてきたが、機械は人間よりもアクセント付き音声の性能が著しく低下している。
さらに、アクセント付き音声の最も重要な改善は、主に数百時間から数千時間のデータで問題を克服することで生じる。
人間は通常、新しいアクセントに対応するためにずっと少ないデータを必要とする。
本稿では,アクセント付き音声の認識における性能改善の可能性を評価するために,人間の知覚にインスパイアされた手法について検討する。
私たちの実験は、研究コミュニティが利用可能な小さなアクセス可能なデータセット上で行われます。
複数アクセントへの事前露出、グラファイムと音素に基づく発音、(新しいアクセントへの一般化を改善するために)ドロップアウト、アクセントモデリングに特化して関連付けられるニューラルネットワークの層同定の4つの手法を探索する。
この結果から,人間の知覚に基づく手法は,WERの低減と,新しいアクセントのためのニューラルネットワークにおけるアクセント付き音声のモデル化に有望であることが示唆された。
関連論文リスト
- Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。
従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。
本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T19:52:10Z) - Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。
あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。
トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T16:10:58Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Analysis of French Phonetic Idiosyncrasies for Accent Recognition [0.8602553195689513]
発音の違い、アクセントと音声のイントネーションは、音声認識の最も一般的な問題の1つである。
従来の機械学習技術と畳み込みニューラルネットワークを使い、古典的手法ではこの問題を解決するのに十分な効率が得られていないことを示す。
本稿では,フランス語のアクセントに焦点をあてるとともに,そのスペクトルに対するフランス語の慣用音の影響を理解することによって,その限界を識別する。
論文 参考訳(メタデータ) (2021-10-18T10:50:50Z) - Deep Discriminative Feature Learning for Accent Recognition [14.024346215923972]
我々は、畳み込み型リカレントニューラルネットワークをフロントエンドエンコーダとして採用し、レカレントニューラルネットワークを用いて局所的特徴を統合し、発話レベルのアクセント表現を行う。
本稿では,2020年のアクセント認識チャレンジにおいて,識別学習手法を用いたネットワークがアクセント分類におけるベースラインシステムよりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2020-11-25T00:46:47Z) - Super-Human Performance in Online Low-latency Recognition of
Conversational Speech [18.637636841477]
本稿では,話者の発話のわずか1秒の遅延時間で,超人的性能を実現するシステムについて述べる。
このシステムは、新しい低レイテンシインクリメンタル推論アプローチに統合された複数のアテンションベースのエンコーダデコーダネットワークを使用する。
論文 参考訳(メタデータ) (2020-10-07T14:41:32Z) - Knowing What to Listen to: Early Attention for Deep Speech
Representation Learning [25.71206255965502]
本稿では,音声信号のためのファイングラファレンス・アーリーアテンション(FEFA)を提案する。
このモデルは、周波数ビンほど小さな情報アイテムに焦点を合わせることができる。
話者認識と音声感情認識の2つの一般的な課題について,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2020-09-03T17:40:27Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。