論文の概要: CorrectSpeech: A Fully Automated System for Speech Correction and Accent
Reduction
- arxiv url: http://arxiv.org/abs/2204.05460v1
- Date: Tue, 12 Apr 2022 01:20:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 14:42:55.037863
- Title: CorrectSpeech: A Fully Automated System for Speech Correction and Accent
Reduction
- Title(参考訳): CorrectSpeech: 音声訂正とアクセント低減のための完全自動化システム
- Authors: Daxin Tan, Liqun Deng, Nianzu Zheng, Yu Ting Yeung, Xin Jiang, Xiao
Chen, Tan Lee
- Abstract要約: 提案方式はCorrectSpeechと呼ばれ、3段階の修正を行う。
補正音声の品質と自然性は、音声認識とアライメントモジュールの性能に依存する。
その結果,音声の発音誤りを訂正し,アクセントを低減できることがわかった。
- 参考スコア(独自算出の注目度): 37.52612296258531
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study extends our previous work on text-based speech editing to
developing a fully automated system for speech correction and accent reduction.
Consider the application scenario that a recorded speech audio contains certain
errors, e.g., inappropriate words, mispronunciations, that need to be
corrected. The proposed system, named CorrectSpeech, performs the correction in
three steps: recognizing the recorded speech and converting it into
time-stamped symbol sequence, aligning recognized symbol sequence with target
text to determine locations and types of required edit operations, and
generating the corrected speech. Experiments show that the quality and
naturalness of corrected speech depend on the performance of speech recognition
and alignment modules, as well as the granularity level of editing operations.
The proposed system is evaluated on two corpora: a manually perturbed version
of VCTK and L2-ARCTIC. The results demonstrate that our system is able to
correct mispronunciation and reduce accent in speech recordings. Audio samples
are available online for demonstration
https://daxintan-cuhk.github.io/CorrectSpeech/ .
- Abstract(参考訳): 本研究は,テキストベースの音声編集に関する先行研究を拡張し,完全に自動化された音声補正・アクセント低減システムを開発した。
録音された音声音声が、修正が必要な不適切な単語、誤認識などの特定のエラーを含むアプリケーションシナリオを考える。
提案システムはCorrectSpeechと名づけられた3つのステップで修正を行い、記録された音声を認識してタイムスタンプのシンボルシーケンスに変換し、認識されたシンボルシーケンスをターゲットテキストに整列させ、必要な編集操作の場所や種類を判定し、修正された音声を生成する。
実験により,修正音声の品質と自然性は,音声認識およびアライメントモジュールの性能と,編集操作の粒度レベルに依存することが示された。
提案システムはVCTKとL2-ARCTICの2つのコーパスを用いて評価した。
その結果,本システムは音声録音の誤りを訂正し,アクセントを低減できることがわかった。
オーディオサンプルは、デモ https://daxintan-cuhk.github.io/CorrectSpeech/.comで公開されている。
関連論文リスト
- Speaker Tagging Correction With Non-Autoregressive Language Models [0.0]
非自己回帰言語モデルに基づく話者タグ付け補正システムを提案する。
提案手法は, 単語ダイアリゼーション誤り率 (WDER) を2つのデータセットで減少させる。
論文 参考訳(メタデータ) (2024-08-30T11:02:17Z) - Speech Editing -- a Summary [8.713498822221222]
本稿では,手動による波形編集を必要とせず,テキストの書き起こしによって音声を編集するテキストベースの音声編集手法について検討する。
目的は、進行中の問題を強調し、音声編集におけるさらなる研究と革新を刺激することである。
論文 参考訳(メタデータ) (2024-07-24T11:22:57Z) - DisfluencyFixer: A tool to enhance Language Learning through Speech To
Speech Disfluency Correction [50.51901599433536]
DisfluencyFixerは、英語とヒンディー語で音声から音声への拡散補正を行うツールである。
提案システムでは,入力音声からの拡散を除去し,出力として流速音声を返却する。
論文 参考訳(メタデータ) (2023-05-26T14:13:38Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Correcting Misproducted Speech using Spectrogram Inpainting [15.565673574838934]
本稿では, 誤り発生時の正しい発音フィードバックを合成的に生成する手法を提案する。
システムは、ユーザにフレーズを発音するよう促す。音声は記録され、不正確な音素に関連するサンプルはゼロでマスクされる。
その結果,人間の聞き手は,不正確な音素を異なる話者に置き換えるよりも,生成した音声をわずかに好んでいることが示唆された。
論文 参考訳(メタデータ) (2022-04-07T11:58:29Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data [115.38309338462588]
AdaSpeech 2 は、未転写音声データのみを適応に利用する適応型 TTS システムである。
具体的には,よく訓練されたttsモデルにmel-spectrogramエンコーダを導入し,音声再構成を行う。
適応では,ttsデコーダのみを微調整し,未書き起こし音声データを用いて音声再構成を行う。
論文 参考訳(メタデータ) (2021-04-20T01:53:30Z) - Context-Aware Prosody Correction for Text-Based Speech Editing [28.459695630420832]
現在のシステムの主な欠点は、編集された地域の周りの韻律のミスマッチのために、編集された録音がしばしば不自然に聞こえることです。
音声のより自然な音声編集のための新しい文脈認識手法を提案する。
論文 参考訳(メタデータ) (2021-02-16T18:16:30Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。