論文の概要: Transformer-Based Multi-Aspect Multi-Granularity Non-Native English
Speaker Pronunciation Assessment
- arxiv url: http://arxiv.org/abs/2205.03432v1
- Date: Fri, 6 May 2022 18:07:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-15 14:32:03.608807
- Title: Transformer-Based Multi-Aspect Multi-Granularity Non-Native English
Speaker Pronunciation Assessment
- Title(参考訳): トランスベースマルチスペクトルマルチグラニュラ性非母語英語話者発音評価
- Authors: Yuan Gong, Ziyi Chen, Iek-Heng Chu, Peng Chang, James Glass
- Abstract要約: マルチタスク学習によるGoodness Of Pronunciation機能ベースのトランスフォーマー(GOPT)を訓練する。
実験の結果,GOPTは,Librispeechで訓練された公用自動音声認識(ASR)音響モデルを用いて,音声認識762で最高の結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 10.809349710149533
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic pronunciation assessment is an important technology to help
self-directed language learners. While pronunciation quality has multiple
aspects including accuracy, fluency, completeness, and prosody, previous
efforts typically only model one aspect (e.g., accuracy) at one granularity
(e.g., at the phoneme-level). In this work, we explore modeling multi-aspect
pronunciation assessment at multiple granularities. Specifically, we train a
Goodness Of Pronunciation feature-based Transformer (GOPT) with multi-task
learning. Experiments show that GOPT achieves the best results on
speechocean762 with a public automatic speech recognition (ASR) acoustic model
trained on Librispeech.
- Abstract(参考訳): 自動発音評価は,自己指導型言語学習者を支援する重要な技術である。
発音品質には精度、流派、完全性、韻律を含む複数の側面があるが、従来の試みは1つの粒度(例えば音素レベル)でのみ1つの側面(例えば精度)をモデル化する。
本研究では,複数粒度のマルチアスペクト発音評価のモデル化について検討する。
具体的には、マルチタスク学習によるGoodness Of Pronunciation機能ベースのトランスフォーマー(GOPT)を訓練する。
実験により、goptは、librispeechで訓練された公用自動音声認識(asr)音響モデルを用いて、 speechocean762で最高の結果を得た。
関連論文リスト
- Generative Pre-trained Speech Language Model with Efficient Hierarchical Transformer [39.31849739010572]
textbfGenerative textbfPre-trained textbfSpeech textbfTransformer (GPST)を紹介する。
GPSTは効率的な音声言語モデリングのために設計された階層変換器である。
論文 参考訳(メタデータ) (2024-06-03T04:16:30Z) - Can Language Models Learn to Listen? [96.01685069483025]
本稿では,話者の言葉に基づく社会的対話における聞き手から適切な表情応答を生成するための枠組みを提案する。
提案手法は,VQ-VAEを用いて定量化したリスナーの顔のジェスチャー列であるリスナーの応答を自己回帰的に予測する。
生成したリスナーの動きは,定量的メトリクスと質的ユーザスタディを通じて,言語意味論に精通し,反映していることを示す。
論文 参考訳(メタデータ) (2023-08-21T17:59:02Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Hierarchical Pronunciation Assessment with Multi-Aspect Attention [3.6825890616838066]
マルチアスペクト注意(HiPAMA)モデルを用いた階層的発音評価を提案する。
HiPAMAは言語構造を直接捉えるための粒度レベルを階層的に表現し、多視点の注意を喚起する。
実験結果の顕著な改善は,HiPAMAの堅牢性を示している。
論文 参考訳(メタデータ) (2022-11-15T12:49:35Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - Personalized Speech Enhancement: New Models and Comprehensive Evaluation [27.572537325449158]
従来提案されていたVoiceFilterよりも優れた性能を実現するために,パーソナライズされた音声強調(PSE)モデルのための2つのニューラルネットワークを提案する。
また、ビデオ会議中にユーザが遭遇するさまざまなシナリオをキャプチャするテストセットも作成します。
その結果,提案モデルでは,ベースラインモデルよりも音声認識精度,音声認識精度,知覚品質が向上することが示唆された。
論文 参考訳(メタデータ) (2021-10-18T21:21:23Z) - Many-to-Many Voice Conversion based Feature Disentanglement using
Variational Autoencoder [2.4975981795360847]
そこで本稿では,多くの音声変換に対処するために,特徴のゆがみに基づく新しい手法を提案する。
本手法は、話者のアイデンティティと言語内容とを発話から切り離す能力を有する。
多くのソーススピーカーから単一のオートエンコーダネットワークで多くのターゲットスピーカーに変換することができる。
論文 参考訳(メタデータ) (2021-07-11T13:31:16Z) - Phoneme Boundary Detection using Learnable Segmental Features [31.203969460341817]
音素境界検出は様々な音声処理アプリケーションにおいて重要な第一歩となる。
本稿では,音素境界検出タスクのセグメント表現を学習するために,パラメータ化された構造的損失関数と結合したニューラルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-11T14:03:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。