論文の概要: Visual-speech Synthesis of Exaggerated Corrective Feedback
- arxiv url: http://arxiv.org/abs/2009.05748v2
- Date: Tue, 15 Dec 2020 13:16:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 08:16:39.933030
- Title: Visual-speech Synthesis of Exaggerated Corrective Feedback
- Title(参考訳): 過大な補正フィードバックの視覚音声合成
- Authors: Yaohua Bu, Weijun Li, Tianyi Ma, Shengqi Chen, Jia Jia, Kun Li, Xiaobo
Lu
- Abstract要約: コンピュータ支援発音訓練(CAPT)における視覚音声フィードバックの過大評価手法を提案する。
音声強調は、タコトロンに基づく強調音声生成ニューラルネットワークにより実現される。
過大評価されたフィードバックは、発音識別と発音改善の学習者を支援するために、過大評価されたバージョンよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 32.88905525975493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To provide more discriminative feedback for the second language (L2) learners
to better identify their mispronunciation, we propose a method for exaggerated
visual-speech feedback in computer-assisted pronunciation training (CAPT). The
speech exaggeration is realized by an emphatic speech generation neural network
based on Tacotron, while the visual exaggeration is accomplished by ADC Viseme
Blending, namely increasing Amplitude of movement, extending the phone's
Duration and enhancing the color Contrast. User studies show that exaggerated
feedback outperforms non-exaggerated version on helping learners with
pronunciation identification and pronunciation improvement.
- Abstract(参考訳): 第二言語(L2)学習者に対して、その誤発音をよりよく識別するための識別的フィードバックを提供するため、コンピュータ支援発音訓練(CAPT)において、視覚音声フィードバックを誇張する手法を提案する。
音声強調は、タコトロンに基づく強調音声生成ニューラルネットワークにより実現され、視覚強調は、ADC Viseme Blendingによって実現される。
ユーザ研究によれば、大げさなフィードバックは、発音の識別と発音の改善を学習者に支援する非大げさなバージョンよりも優れている。
関連論文リスト
- Speech2rtMRI: Speech-Guided Diffusion Model for Real-time MRI Video of the Vocal Tract during Speech [29.510756530126837]
音声中の人間の声道のMRIビデオにおいて,音声を視覚的に表現するデータ駆動方式を提案する。
先行知識に埋め込まれた大規模な事前学習音声モデルを用いて、視覚領域を一般化し、見当たらないデータを生成する。
論文 参考訳(メタデータ) (2024-09-23T20:19:24Z) - Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation [55.15299351110525]
本稿では,1つの訓練されたモデルで異なる言語を認識可能な文レベル多言語視覚音声認識(VSR)について検討する。
視覚音声単位を用いた新しい学習手法を提案する。
我々は、従来の言語固有のVSRモデルに匹敵する性能を達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2024-01-18T08:46:02Z) - Optimizing Two-Pass Cross-Lingual Transfer Learning: Phoneme Recognition
and Phoneme to Grapheme Translation [9.118302330129284]
本研究は低リソース言語における2パスの言語間変換学習を最適化する。
共有調音特性に基づいて音素を融合させることにより,音素語彙のカバレッジを最適化する。
音素と音素の訓練中に, 現実的なASR雑音に対するグローバルな音素ノイズ発生装置を導入し, 誤りの伝搬を低減する。
論文 参考訳(メタデータ) (2023-12-06T06:37:24Z) - Speed Co-Augmentation for Unsupervised Audio-Visual Pre-training [102.18680666349806]
本稿では,音声とビデオデータの再生速度をランダムに変更する高速化手法を提案する。
実験の結果,提案手法は,バニラ音声・視覚的コントラスト学習と比較して,学習表現を著しく改善することがわかった。
論文 参考訳(メタデータ) (2023-09-25T08:22:30Z) - Personalized Speech Enhancement: New Models and Comprehensive Evaluation [27.572537325449158]
従来提案されていたVoiceFilterよりも優れた性能を実現するために,パーソナライズされた音声強調(PSE)モデルのための2つのニューラルネットワークを提案する。
また、ビデオ会議中にユーザが遭遇するさまざまなシナリオをキャプチャするテストセットも作成します。
その結果,提案モデルでは,ベースラインモデルよりも音声認識精度,音声認識精度,知覚品質が向上することが示唆された。
論文 参考訳(メタデータ) (2021-10-18T21:21:23Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文 参考訳(メタデータ) (2021-01-31T10:54:27Z) - UniSpeech: Unified Speech Representation Learning with Labeled and
Unlabeled Data [54.733889961024445]
ラベル付きデータとラベル付きデータの両方を用いて音声表現を学習するためのUniSpeechという統合事前学習手法を提案する。
公立CommonVoiceコーパス上での言語間表現学習におけるUniSpeechの有効性を評価する。
論文 参考訳(メタデータ) (2021-01-19T12:53:43Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。