Fugu-MT 論文翻訳(概要): Visual-speech Synthesis of Exaggerated Corrective Feedback

論文の概要: Visual-speech Synthesis of Exaggerated Corrective Feedback

arxiv url: http://arxiv.org/abs/2009.05748v2
Date: Tue, 15 Dec 2020 13:16:53 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-19 08:16:39.933030
Title: Visual-speech Synthesis of Exaggerated Corrective Feedback
Title（参考訳）: 過大な補正フィードバックの視覚音声合成
Authors: Yaohua Bu, Weijun Li, Tianyi Ma, Shengqi Chen, Jia Jia, Kun Li, Xiaobo Lu
Abstract要約: コンピュータ支援発音訓練(CAPT)における視覚音声フィードバックの過大評価手法を提案する。音声強調は、タコトロンに基づく強調音声生成ニューラルネットワークにより実現される。過大評価されたフィードバックは、発音識別と発音改善の学習者を支援するために、過大評価されたバージョンよりも優れていることを示す。
参考スコア（独自算出の注目度）: 32.88905525975493
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: To provide more discriminative feedback for the second language (L2) learners to better identify their mispronunciation, we propose a method for exaggerated visual-speech feedback in computer-assisted pronunciation training (CAPT). The speech exaggeration is realized by an emphatic speech generation neural network based on Tacotron, while the visual exaggeration is accomplished by ADC Viseme Blending, namely increasing Amplitude of movement, extending the phone's Duration and enhancing the color Contrast. User studies show that exaggerated feedback outperforms non-exaggerated version on helping learners with pronunciation identification and pronunciation improvement.
Abstract（参考訳）: 第二言語(L2)学習者に対して、その誤発音をよりよく識別するための識別的フィードバックを提供するため、コンピュータ支援発音訓練(CAPT)において、視覚音声フィードバックを誇張する手法を提案する。音声強調は、タコトロンに基づく強調音声生成ニューラルネットワークにより実現され、視覚強調は、ADC Viseme Blendingによって実現される。ユーザ研究によれば、大げさなフィードバックは、発音の識別と発音の改善を学習者に支援する非大げさなバージョンよりも優れている。

関連論文リスト

VALLR: Visual ASR Language Model for Lip Reading [28.561566996686484]
リップレディング(Lip Reading)または視覚自動音声認識(Visual Automatic Speech Recognition)は、視覚的手がかりからのみ音声言語の解釈を必要とする複雑なタスクである。視覚自動音声認識(V-ASR)のための新しい2段階音素中心のフレームワークを提案する。まず,CTCヘッドを用いたビデオ変換器を用いて,視覚入力から音素のコンパクトな列を予測する。この音素出力は、コヒーレントな単語と文を再構成する微調整された大言語モデル(LLM)への入力として機能する。
論文参考訳（メタデータ） (2025-03-27T11:52:08Z)
Enhancing nonnative speech perception and production through an AI-powered application [0.0]
本研究の目的は、AIを利用したモバイルアプリケーションによるトレーニングが、非ネイティブな音の知覚と生産に与える影響を検討することである。この介入には、英語の母音を特徴とする録音タスクと発音フィードバックと練習を取り入れたSpeakometer Mobileアプリケーションによるトレーニングが含まれていた。その結果,介入後の判別精度と目標コントラストの生成に有意な改善が認められた。
論文参考訳（メタデータ） (2025-03-18T10:05:12Z)
Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning [13.113505050543298]
本稿では,音声入力を処理可能な大規模言語モデルを提案する。人間の嗜好に基づく強化学習でさらに調整することで、従来の微調整よりも混乱した音声に適応できることが示される。
論文参考訳（メタデータ） (2024-12-25T00:16:22Z)
Speech2rtMRI: Speech-Guided Diffusion Model for Real-time MRI Video of the Vocal Tract during Speech [29.510756530126837]
音声中の人間の声道のMRIビデオにおいて,音声を視覚的に表現するデータ駆動方式を提案する。先行知識に埋め込まれた大規模な事前学習音声モデルを用いて、視覚領域を一般化し、見当たらないデータを生成する。
論文参考訳（メタデータ） (2024-09-23T20:19:24Z)
Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
本稿では,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。この革新的なモデルは、レキシコンフリー環境下での以前の教師なしASRモデルの性能を上回る。
論文参考訳（メタデータ） (2024-06-12T16:30:58Z)
Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation [55.15299351110525]
本稿では,1つの訓練されたモデルで異なる言語を認識可能な文レベル多言語視覚音声認識(VSR)について検討する。視覚音声単位を用いた新しい学習手法を提案する。我々は、従来の言語固有のVSRモデルに匹敵する性能を達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文参考訳（メタデータ） (2024-01-18T08:46:02Z)
Optimizing Two-Pass Cross-Lingual Transfer Learning: Phoneme Recognition and Phoneme to Grapheme Translation [9.118302330129284]
本研究は低リソース言語における2パスの言語間変換学習を最適化する。共有調音特性に基づいて音素を融合させることにより,音素語彙のカバレッジを最適化する。音素と音素の訓練中に, 現実的なASR雑音に対するグローバルな音素ノイズ発生装置を導入し, 誤りの伝搬を低減する。
論文参考訳（メタデータ） (2023-12-06T06:37:24Z)
Speed Co-Augmentation for Unsupervised Audio-Visual Pre-training [102.18680666349806]
本稿では,音声とビデオデータの再生速度をランダムに変更する高速化手法を提案する。実験の結果,提案手法は,バニラ音声・視覚的コントラスト学習と比較して,学習表現を著しく改善することがわかった。
論文参考訳（メタデータ） (2023-09-25T08:22:30Z)
Personalized Speech Enhancement: New Models and Comprehensive Evaluation [27.572537325449158]
従来提案されていたVoiceFilterよりも優れた性能を実現するために,パーソナライズされた音声強調(PSE)モデルのための2つのニューラルネットワークを提案する。また、ビデオ会議中にユーザが遭遇するさまざまなシナリオをキャプチャするテストセットも作成します。その結果,提案モデルでは,ベースラインモデルよりも音声認識精度,音声認識精度,知覚品質が向上することが示唆された。
論文参考訳（メタデータ） (2021-10-18T21:21:23Z)
Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文参考訳（メタデータ） (2021-10-11T00:08:48Z)
High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文参考訳（メタデータ） (2021-01-31T10:54:27Z)
UniSpeech: Unified Speech Representation Learning with Labeled and Unlabeled Data [54.733889961024445]
ラベル付きデータとラベル付きデータの両方を用いて音声表現を学習するためのUniSpeechという統合事前学習手法を提案する。公立CommonVoiceコーパス上での言語間表現学習におけるUniSpeechの有効性を評価する。
論文参考訳（メタデータ） (2021-01-19T12:53:43Z)
Learning Explicit Prosody Models and Deep Speaker Embeddings for Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文参考訳（メタデータ） (2020-11-03T13:08:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。