論文の概要: Digital Voicing of Silent Speech
- arxiv url: http://arxiv.org/abs/2010.02960v1
- Date: Tue, 6 Oct 2020 18:23:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 06:02:25.014440
- Title: Digital Voicing of Silent Speech
- Title(参考訳): 無声音声のディジタル音声化
- Authors: David Gaddy and Dan Klein
- Abstract要約: 本研究では,無声音声をEMG(Electromyography)センサ計測に基づいて,無声音声から有声音声に変換する作業について考察する。
音声信号からサイレント信号へ音声ターゲットを移動させることにより、サイレントEMGの訓練方法を提案する。
本手法は,有声データのみを学習するベースラインに比べて,サイレントEMGから発生する音声の可聴性を大幅に向上させる。
- 参考スコア(独自算出の注目度): 48.15708685020142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we consider the task of digitally voicing silent speech, where
silently mouthed words are converted to audible speech based on
electromyography (EMG) sensor measurements that capture muscle impulses. While
prior work has focused on training speech synthesis models from EMG collected
during vocalized speech, we are the first to train from EMG collected during
silently articulated speech. We introduce a method of training on silent EMG by
transferring audio targets from vocalized to silent signals. Our method greatly
improves intelligibility of audio generated from silent EMG compared to a
baseline that only trains with vocalized data, decreasing transcription word
error rate from 64% to 4% in one data condition and 88% to 68% in another. To
spur further development on this task, we share our new dataset of silent and
vocalized facial EMG measurements.
- Abstract(参考訳): 本稿では,筋インパルスを捉えた筋電図(EMG)センサ計測に基づいて,無声音声を有声音声に変換し,無声音声に変換する作業について考察する。
先行研究は発声音声中に収集したemgの音声合成モデルを訓練することに焦点を当ててきたが,無声音声におけるemgの訓練は今回が初めてである。
音声信号からサイレント信号への音声ターゲットの転送によるサイレントEMGの訓練手法を提案する。
本手法は,有声データのみを訓練するベースラインと比較して,無声EMGから発生する音声の可聴性を大幅に向上させ,1つのデータ条件で64%から4%に,さらに88%から68%に低下させる。
この課題をさらに発展させるため,我々は,無声および発声顔面筋電図測定のデータセットを新たに公開する。
関連論文リスト
- LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Self-Supervised Speech Representations Preserve Speech Characteristics
while Anonymizing Voices [15.136348385992047]
我々は、自己教師付き音声表現を用いて、複数の音声変換モデルを訓練する。
変換音声は、元の音声の1%以内に低い単語誤り率を保持する。
調音・韻律・発声・音韻に関連する音声特徴を匿名音声から抽出できることを示す。
論文 参考訳(メタデータ) (2022-04-04T17:48:01Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Injecting Text in Self-Supervised Speech Pretraining [33.676479965610774]
我々は,2つの異なるモーダル(音声とテキスト)から事前学習中の表現を共同学習することを提案する。
tts4pretrainは自己スーパービジョンにおけるコントラスト学習のパワーを補完する。
We demonstrate Word Error Rate (WER) reductions of 10% relative on the well-benchmarked, Librispeech task。
論文 参考訳(メタデータ) (2021-08-27T11:36:40Z) - An Improved Model for Voicing Silent Speech [42.75251355374594]
音声を顔筋電図(EMG)信号から合成するサイレント音声の発声モデルを提案する。
我々のモデルは畳み込み層を用いて信号から特徴を抽出し、トランスフォーマー層はより長い距離で情報を伝達する。
論文 参考訳(メタデータ) (2021-06-03T15:33:23Z) - MAM: Masked Acoustic Modeling for End-to-End Speech-to-Text Translation [27.19320167337675]
本稿では,音声側のみで自己教師型で頑健な音声エンコーダを学習する手法を提案する。
Masked Acoustic Modeling (MAM) と呼ばれるこの技術は、E2E-STを改善する代替ソリューションを提供するだけでなく、任意の音響信号に対して事前学習を行うこともできる。
書き起こしを一切使わずに設定すると,MAM予習による+1.1BLEU,+2.3BLEUの平均的改善が達成される。
論文 参考訳(メタデータ) (2020-10-22T05:02:06Z) - CITISEN: A Deep Learning-Based Speech Signal-Processing Mobile
Application [63.2243126704342]
本研究では,CitisENと呼ばれる深層学習に基づく音声信号処理モバイルアプリケーションを提案する。
CitisENは、音声強調(SE)、モデル適応(MA)、背景雑音変換(BNC)の3つの機能を提供している。
雑音の多い音声信号と比較すると、改良された音声信号の約6%と33%の改善が達成された。
論文 参考訳(メタデータ) (2020-08-21T02:04:12Z) - End-to-end Whispered Speech Recognition with Frequency-weighted
Approaches and Pseudo Whisper Pre-training [130.56878980058966]
発声音声のエンド・ツー・エンド(E2E)認識に対するいくつかのアプローチを提案する。
我々は,比較的小型のTIMITコーパスを用いて,PER19.8%,CER44.4%の相対的な削減を実現した。
正規または擬似発声音声で事前訓練された優れたE2Eモデルがある限り、比較的小さな発声音声は、合理的に優れたE2E発声音声認識器を得るのに十分である。
論文 参考訳(メタデータ) (2020-05-05T07:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。