論文の概要: Visual-speech Synthesis of Exaggerated Corrective Feedback
- arxiv url: http://arxiv.org/abs/2009.05748v2
- Date: Tue, 15 Dec 2020 13:16:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 08:16:39.933030
- Title: Visual-speech Synthesis of Exaggerated Corrective Feedback
- Title(参考訳): 過大な補正フィードバックの視覚音声合成
- Authors: Yaohua Bu, Weijun Li, Tianyi Ma, Shengqi Chen, Jia Jia, Kun Li, Xiaobo
Lu
- Abstract要約: コンピュータ支援発音訓練(CAPT)における視覚音声フィードバックの過大評価手法を提案する。
音声強調は、タコトロンに基づく強調音声生成ニューラルネットワークにより実現される。
過大評価されたフィードバックは、発音識別と発音改善の学習者を支援するために、過大評価されたバージョンよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 32.88905525975493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To provide more discriminative feedback for the second language (L2) learners
to better identify their mispronunciation, we propose a method for exaggerated
visual-speech feedback in computer-assisted pronunciation training (CAPT). The
speech exaggeration is realized by an emphatic speech generation neural network
based on Tacotron, while the visual exaggeration is accomplished by ADC Viseme
Blending, namely increasing Amplitude of movement, extending the phone's
Duration and enhancing the color Contrast. User studies show that exaggerated
feedback outperforms non-exaggerated version on helping learners with
pronunciation identification and pronunciation improvement.
- Abstract(参考訳): 第二言語(L2)学習者に対して、その誤発音をよりよく識別するための識別的フィードバックを提供するため、コンピュータ支援発音訓練(CAPT)において、視覚音声フィードバックを誇張する手法を提案する。
音声強調は、タコトロンに基づく強調音声生成ニューラルネットワークにより実現され、視覚強調は、ADC Viseme Blendingによって実現される。
ユーザ研究によれば、大げさなフィードバックは、発音の識別と発音の改善を学習者に支援する非大げさなバージョンよりも優れている。
関連論文リスト
- Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning [13.113505050543298]
本稿では,音声入力を処理可能な大規模言語モデルを提案する。
人間の嗜好に基づく強化学習でさらに調整することで、従来の微調整よりも混乱した音声に適応できることが示される。
論文 参考訳(メタデータ) (2024-12-25T00:16:22Z) - Speech2rtMRI: Speech-Guided Diffusion Model for Real-time MRI Video of the Vocal Tract during Speech [29.510756530126837]
音声中の人間の声道のMRIビデオにおいて,音声を視覚的に表現するデータ駆動方式を提案する。
先行知識に埋め込まれた大規模な事前学習音声モデルを用いて、視覚領域を一般化し、見当たらないデータを生成する。
論文 参考訳(メタデータ) (2024-09-23T20:19:24Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
本稿では,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
この革新的なモデルは、レキシコンフリー環境下での以前の教師なしASRモデルの性能を上回る。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation [55.15299351110525]
本稿では,1つの訓練されたモデルで異なる言語を認識可能な文レベル多言語視覚音声認識(VSR)について検討する。
視覚音声単位を用いた新しい学習手法を提案する。
我々は、従来の言語固有のVSRモデルに匹敵する性能を達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2024-01-18T08:46:02Z) - Optimizing Two-Pass Cross-Lingual Transfer Learning: Phoneme Recognition
and Phoneme to Grapheme Translation [9.118302330129284]
本研究は低リソース言語における2パスの言語間変換学習を最適化する。
共有調音特性に基づいて音素を融合させることにより,音素語彙のカバレッジを最適化する。
音素と音素の訓練中に, 現実的なASR雑音に対するグローバルな音素ノイズ発生装置を導入し, 誤りの伝搬を低減する。
論文 参考訳(メタデータ) (2023-12-06T06:37:24Z) - Speed Co-Augmentation for Unsupervised Audio-Visual Pre-training [102.18680666349806]
本稿では,音声とビデオデータの再生速度をランダムに変更する高速化手法を提案する。
実験の結果,提案手法は,バニラ音声・視覚的コントラスト学習と比較して,学習表現を著しく改善することがわかった。
論文 参考訳(メタデータ) (2023-09-25T08:22:30Z) - High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文 参考訳(メタデータ) (2021-01-31T10:54:27Z) - UniSpeech: Unified Speech Representation Learning with Labeled and
Unlabeled Data [54.733889961024445]
ラベル付きデータとラベル付きデータの両方を用いて音声表現を学習するためのUniSpeechという統合事前学習手法を提案する。
公立CommonVoiceコーパス上での言語間表現学習におけるUniSpeechの有効性を評価する。
論文 参考訳(メタデータ) (2021-01-19T12:53:43Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。