論文の概要: Synthesizing Speech from Intracranial Depth Electrodes using an
Encoder-Decoder Framework
- arxiv url: http://arxiv.org/abs/2111.01457v1
- Date: Tue, 2 Nov 2021 09:43:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-03 15:07:13.202512
- Title: Synthesizing Speech from Intracranial Depth Electrodes using an
Encoder-Decoder Framework
- Title(参考訳): エンコーダ・デコーダによる頭蓋内深部電極からの音声合成
- Authors: Jonas Kohler, Maarten C. Ottenhoff, Sophocles Goulis, Miguel Angrick,
Albert J. Colon, Louis Wagner, Simon Tousseyn, Pieter L. Kubben, Christian
Herff
- Abstract要約: 音声神経補綴は、変形性関節症や変形性関節症患者のコミュニケーションを可能にする可能性がある。
近年の進歩は、皮質表面に置かれた電磁気格子から高品質なテキストデコーディングと音声合成を実証している。
- 参考スコア(独自算出の注目度): 1.623136488969658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech Neuroprostheses have the potential to enable communication for people
with dysarthria or anarthria. Recent advances have demonstrated high-quality
text decoding and speech synthesis from electrocorticographic grids placed on
the cortical surface. Here, we investigate a less invasive measurement
modality, namely stereotactic EEG (sEEG) that provides sparse sampling from
multiple brain regions, including subcortical regions. To evaluate whether sEEG
can also be used to synthesize high-quality audio from neural recordings, we
employ a recurrent encoder-decoder framework based on modern deep learning
methods. We demonstrate that high-quality speech can be reconstructed from
these minimally invasive recordings, despite a limited amount of training data.
Finally, we utilize variational feature dropout to successfully identify the
most informative electrode contacts.
- Abstract(参考訳): 言語ニューロプロテーゼは、構音障害や不整脈の人のためのコミュニケーションを可能にする可能性を秘めている。
最近の進歩は、皮質表面に配置した電気皮質グリッドから高品質なテキストデコードと音声合成を実証している。
そこで本研究では,皮質下領域を含む複数の脳領域からスパースサンプリングを行う定位脳波(sEEG)の低侵襲計測法について検討する。
ニューラル記録から高品質な音声を合成するのにsEEGが使えるかどうかを評価するために,現代のディープラーニング手法に基づく繰り返しエンコーダ・デコーダ・フレームワークを用いる。
少ないトレーニングデータにもかかわらず,これらの低侵襲な記録から高品質な音声を再構成できることを実証する。
最後に,最も情報性の高い電極接触の同定にバラツキ特徴ドロップアウトを用いる。
関連論文リスト
- Collaborative Watermarking for Adversarial Speech Synthesis [0.0]
合成音声透かしのための協調学習手法を提案する。
ASVspoof 2021ベースライン対策モデルと協調したHiFi-GANニューラルボコーダが検出性能を継続的に向上することを示す。
論文 参考訳(メタデータ) (2023-09-26T19:43:14Z) - Surrogate Gradient Spiking Neural Networks as Encoders for Large
Vocabulary Continuous Speech Recognition [91.39701446828144]
スパイクニューラルネットワークは, 代理勾配法を用いて, 通常のリカレントニューラルネットワークのように訓練可能であることを示す。
彼らは音声コマンド認識タスクについて有望な結果を示した。
繰り返し発生する非スパイキングとは対照的に、ゲートを使わずに爆発する勾配問題に対して堅牢性を示す。
論文 参考訳(メタデータ) (2022-12-01T12:36:26Z) - End-to-End Binaural Speech Synthesis [71.1869877389535]
本稿では,低ビットレート音声システムと強力なデコーダを組み合わせたエンドツーエンド音声合成システムを提案する。
実感的な聴覚シーンを作るために必要な環境効果を捉える上で, 対人的損失がもたらす効果を実証する。
論文 参考訳(メタデータ) (2022-07-08T05:18:36Z) - Avocodo: Generative Adversarial Network for Artifact-free Vocoder [5.956832212419584]
本稿では,GANをベースとしたAvocodoと呼ばれるニューラルボコーダを提案する。
Avocodoは、従来のGANベースのニューラルボコーダを音声合成と歌声合成の両方で上回り、人工音声を合成することができる。
論文 参考訳(メタデータ) (2022-06-27T15:54:41Z) - Open Vocabulary Electroencephalography-To-Text Decoding and Zero-shot
Sentiment Classification [78.120927891455]
最先端のブレイン・トゥ・テキストシステムは、ニューラルネットワークを使用して脳信号から直接言語を復号することに成功した。
本稿では,自然読解課題における語彙的脳波(EEG)-テキスト列列列復号化とゼロショット文感性分類に問題を拡張する。
脳波-テキストデコーディングで40.1%のBLEU-1スコア、ゼロショット脳波に基づく3次感情分類で55.6%のF1スコアを達成し、教師付きベースラインを著しく上回る結果となった。
論文 参考訳(メタデータ) (2021-12-05T21:57:22Z) - DeepA: A Deep Neural Analyzer For Speech And Singing Vocoding [71.73405116189531]
本稿では,従来のボコーダで定義されている音声をエミュレートする入力音声から,F0と音節/音節/音節のエンコーディングを抽出するニューラルボコーダを提案する。
ディープ・ニューラル・アナライザは学習可能であるため、信号の再構成と操作がより正確であり、音声から歌への一般化が期待できる。
論文 参考訳(メタデータ) (2021-10-13T01:39:57Z) - Voice Activity Detection for Transient Noisy Environment Based on
Diffusion Nets [13.558688470594674]
過渡音と定常音の音響環境における音声活動検出について検討する。
音声フレームと非音声音声フレームの空間パターンを独立に学習し,その基礎となる幾何学的構造を学習する。
ディープニューラルネットワークは、音声フレームと非音声フレームを分離するように訓練される。
論文 参考訳(メタデータ) (2021-06-25T17:05:26Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Diffusion-Weighted Magnetic Resonance Brain Images Generation with
Generative Adversarial Networks and Variational Autoencoders: A Comparison
Study [55.78588835407174]
本研究では,高画質,多彩で現実的な拡散重み付き磁気共鳴画像が深部生成モデルを用いて合成可能であることを示す。
Introspective Variational AutoencoderとStyle-Based GANの2つのネットワークを医療分野におけるデータ拡張の資格として提示する。
論文 参考訳(メタデータ) (2020-06-24T18:00:01Z) - A Novel Deep Learning Architecture for Decoding Imagined Speech from EEG [2.4063592468412267]
我々は、ディープニューラルネットワーク(DNN)を用いて、"in"と"cooperate"の単語を分類する新しいアーキテクチャを提案する。
9つの脳波チャンネルは、下層の皮質活動を最もよく捉え、共通空間パターンを用いて選択される。
我々は最先端の結果に匹敵する精度を達成した。
論文 参考訳(メタデータ) (2020-03-19T00:57:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。