Fugu-MT 論文翻訳(概要): An Improved Model for Voicing Silent Speech

論文の概要: An Improved Model for Voicing Silent Speech

arxiv url: http://arxiv.org/abs/2106.01933v1
Date: Thu, 3 Jun 2021 15:33:23 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-04 16:25:09.323600
Title: An Improved Model for Voicing Silent Speech
Title（参考訳）: サイレントスピーチのための改良モデル
Authors: David Gaddy and Dan Klein
Abstract要約: 音声を顔筋電図(EMG)信号から合成するサイレント音声の発声モデルを提案する。我々のモデルは畳み込み層を用いて信号から特徴を抽出し、トランスフォーマー層はより長い距離で情報を伝達する。
参考スコア（独自算出の注目度）: 42.75251355374594
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we present an improved model for voicing silent speech, where audio is synthesized from facial electromyography (EMG) signals. To give our model greater flexibility to learn its own input features, we directly use EMG signals as input in the place of hand-designed features used by prior work. Our model uses convolutional layers to extract features from the signals and Transformer layers to propagate information across longer distances. To provide better signal for learning, we also introduce an auxiliary task of predicting phoneme labels in addition to predicting speech audio features. On an open vocabulary intelligibility evaluation, our model improves the state of the art for this task by an absolute 25.8%.
Abstract（参考訳）: 本稿では,表情筋電図(EMG)信号から音声を合成するサイレント音声の発声モデルを提案する。モデルに独自の入力特徴を学習する柔軟性を持たせるために,手動設計機能の代わりにEMG信号を直接入力として使用する。我々のモデルは畳み込み層を用いて信号から特徴を抽出し、トランスフォーマー層はより長い距離で情報を伝達する。学習のためのより良い信号を提供するため,音声特徴の予測に加えて,音素ラベルを予測する補助タスクを導入する。オープンボキャブラリの知性評価において,本モデルは,この課題に対する技術水準を絶対25.8%向上させる。

関連論文リスト

Articulatory Feature Prediction from Surface EMG during Speech Production [25.10685431811405]
音声合成における表面筋電図(EMG)信号から調音特徴を予測するモデルを提案する。提案モデルでは,畳み込み層とトランスフォーマーブロックを統合し,続いて音声特徴の予測器を分離する。予測された調音特徴を可知音声波形にデコードできることを実証する。
論文参考訳（メタデータ） (2025-05-20T01:50:05Z)
Multi-modal Adversarial Training for Zero-Shot Voice Cloning [9.823246184635103]
実音声特徴と生成音声特徴を条件付きで識別するトランスフォーマーエンコーダデコーダアーキテクチャを提案する。我々は、FastSpeech2音響モデルに適用し、大規模マルチスピーカーデータセットであるLibriheavyのトレーニングを行うことにより、新しい対角訓練手法を導入する。本モデルは,音声品質と話者類似度の観点から,ベースラインに対する改善を実現する。
論文参考訳（メタデータ） (2024-08-28T16:30:41Z)
Toward Fully-End-to-End Listened Speech Decoding from EEG Signals [29.548052495254257]
脳波信号からの完全エンドツーエンド音声デコーディングのための新しいフレームワークであるFESDEを提案する。提案手法は,脳波モジュールと音声モジュール,およびコネクタから構成される。音声符号化のモデル特性を明らかにするために, きめ細かい音素解析を行った。
論文参考訳（メタデータ） (2024-06-12T21:08:12Z)
Fill in the Gap! Combining Self-supervised Representation Learning with Neural Audio Synthesis for Speech Inpainting [14.402357651227003]
本稿では,音声信号の欠落部分を周囲の文脈から再構成する音声認識用SSLモデルについて検討する。その目的のために、SSLエンコーダ、すなわち HuBERT とニューラルヴォコーダ、すなわち HiFiGAN を組み合わせてデコーダの役割を演じる。
論文参考訳（メタデータ） (2024-05-30T14:41:39Z)
SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。 SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文参考訳（メタデータ） (2024-01-24T15:25:01Z)
Efficient Monaural Speech Enhancement using Spectrum Attention Fusion [15.8309037583936]
本稿では,自己意図の表現性を保ちながら,モデルの複雑さを著しく低減する音声強調モデルの改良について述べる。音声変換器において,複数の自己認識層を置き換えるための畳み込みモジュールを構築し,より効率的にスペクトル特徴を融合させる。提案モデルでは,SOTAモデルに対して同等あるいはより良い結果が得られるが,Voice Bank + DEMANDデータセット上では,パラメータが0.58Mよりもはるかに小さい。
論文参考訳（メタデータ） (2023-08-04T11:39:29Z)
Towards Disentangled Speech Representations [65.7834494783044]
本研究では, ASR と TTS の合同モデリングに基づく表現学習タスクを構築する。本研究は,その部分の音声信号と,その部分の音声信号とをアンタングルする音声表現を学習することを目的とする。我々は,これらの特性をトレーニング中に強化することにより,WERを平均24.5%向上させることを示す。
論文参考訳（メタデータ） (2022-08-28T10:03:55Z)
Self-Supervised Learning for speech recognition with Intermediate layer supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。 ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。 LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文参考訳（メタデータ） (2021-12-16T10:45:05Z)
End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文参考訳（メタデータ） (2021-02-12T18:00:08Z)
Efficiently Fusing Pretrained Acoustic and Linguistic Encoders for Low-resource Speech Recognition [9.732767611907068]
本研究では,前訓練音響エンコーダ(wav2vec2.0)と前訓練言語エンコーダ(bert)をエンドツーエンドasrモデルに融合する。本モデルは他のエンドツーエンドモデルに比べてcallhomeコーパスの認識性能が(15時間)向上する。
論文参考訳（メタデータ） (2021-01-17T16:12:44Z)
Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文参考訳（メタデータ） (2020-05-18T10:42:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。