論文の概要: Synthesizing Speech from Intracranial Depth Electrodes using an
Encoder-Decoder Framework
- arxiv url: http://arxiv.org/abs/2111.01457v1
- Date: Tue, 2 Nov 2021 09:43:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-03 15:07:13.202512
- Title: Synthesizing Speech from Intracranial Depth Electrodes using an
Encoder-Decoder Framework
- Title(参考訳): エンコーダ・デコーダによる頭蓋内深部電極からの音声合成
- Authors: Jonas Kohler, Maarten C. Ottenhoff, Sophocles Goulis, Miguel Angrick,
Albert J. Colon, Louis Wagner, Simon Tousseyn, Pieter L. Kubben, Christian
Herff
- Abstract要約: 音声神経補綴は、変形性関節症や変形性関節症患者のコミュニケーションを可能にする可能性がある。
近年の進歩は、皮質表面に置かれた電磁気格子から高品質なテキストデコーディングと音声合成を実証している。
- 参考スコア(独自算出の注目度): 1.623136488969658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech Neuroprostheses have the potential to enable communication for people
with dysarthria or anarthria. Recent advances have demonstrated high-quality
text decoding and speech synthesis from electrocorticographic grids placed on
the cortical surface. Here, we investigate a less invasive measurement
modality, namely stereotactic EEG (sEEG) that provides sparse sampling from
multiple brain regions, including subcortical regions. To evaluate whether sEEG
can also be used to synthesize high-quality audio from neural recordings, we
employ a recurrent encoder-decoder framework based on modern deep learning
methods. We demonstrate that high-quality speech can be reconstructed from
these minimally invasive recordings, despite a limited amount of training data.
Finally, we utilize variational feature dropout to successfully identify the
most informative electrode contacts.
- Abstract(参考訳): 言語ニューロプロテーゼは、構音障害や不整脈の人のためのコミュニケーションを可能にする可能性を秘めている。
最近の進歩は、皮質表面に配置した電気皮質グリッドから高品質なテキストデコードと音声合成を実証している。
そこで本研究では,皮質下領域を含む複数の脳領域からスパースサンプリングを行う定位脳波(sEEG)の低侵襲計測法について検討する。
ニューラル記録から高品質な音声を合成するのにsEEGが使えるかどうかを評価するために,現代のディープラーニング手法に基づく繰り返しエンコーダ・デコーダ・フレームワークを用いる。
少ないトレーニングデータにもかかわらず,これらの低侵襲な記録から高品質な音声を再構成できることを実証する。
最後に,最も情報性の高い電極接触の同定にバラツキ特徴ドロップアウトを用いる。
関連論文リスト
- A multimodal LLM for the non-invasive decoding of spoken text from brain recordings [0.4187344935012482]
fMRI信号から音声テキストを復号するためのマルチモーダルLLMを提案する。
提案アーキテクチャは, (i) 特定のトランスフォーマーから派生したエンコーダ上に構築され, エンコーダに付加された埋め込み層と, 最先端のアテンション機構が組み込まれている。
fMRIと会話信号が同期的に記録される、人間-ロボット相互作用と人間-ロボット相互作用のセットからなるコーパス上で行われたベンチマーク。
論文 参考訳(メタデータ) (2024-09-29T14:03:39Z) - CoLM-DSR: Leveraging Neural Codec Language Modeling for Multi-Modal Dysarthric Speech Reconstruction [61.067153685104394]
変形性音声再建(DSR)は、変形性音声を正常な音声に変換することを目的としている。
話者の類似度は低く、プロソディの自然度は低い。
本稿では、ニューラルネットワークモデリングを利用して再構成結果を改善するマルチモーダルDSRモデルを提案する。
論文 参考訳(メタデータ) (2024-06-12T15:42:21Z) - Improving Speech Decoding from ECoG with Self-Supervised Pretraining [0.0]
ノイズコントラスト損失を用いて音声の潜在表現を学習する自己教師付き完全畳み込みモデルを再設計する。
我々は、このモデルを心電図記録(ECoG)に基づいて訓練する。
次に、ラベル付き音声セッションからwav2vecの表現空間にECoGを変換し、最後に教師付きエンコーダデコーダをトレーニングし、これらの表現をテキストにマッピングします。
論文 参考訳(メタデータ) (2024-05-28T22:48:53Z) - Surrogate Gradient Spiking Neural Networks as Encoders for Large
Vocabulary Continuous Speech Recognition [91.39701446828144]
スパイクニューラルネットワークは, 代理勾配法を用いて, 通常のリカレントニューラルネットワークのように訓練可能であることを示す。
彼らは音声コマンド認識タスクについて有望な結果を示した。
繰り返し発生する非スパイキングとは対照的に、ゲートを使わずに爆発する勾配問題に対して堅牢性を示す。
論文 参考訳(メタデータ) (2022-12-01T12:36:26Z) - End-to-End Binaural Speech Synthesis [71.1869877389535]
本稿では,低ビットレート音声システムと強力なデコーダを組み合わせたエンドツーエンド音声合成システムを提案する。
実感的な聴覚シーンを作るために必要な環境効果を捉える上で, 対人的損失がもたらす効果を実証する。
論文 参考訳(メタデータ) (2022-07-08T05:18:36Z) - Avocodo: Generative Adversarial Network for Artifact-free Vocoder [5.956832212419584]
本稿では,GANをベースとしたAvocodoと呼ばれるニューラルボコーダを提案する。
Avocodoは、従来のGANベースのニューラルボコーダを音声合成と歌声合成の両方で上回り、人工音声を合成することができる。
論文 参考訳(メタデータ) (2022-06-27T15:54:41Z) - Open Vocabulary Electroencephalography-To-Text Decoding and Zero-shot
Sentiment Classification [78.120927891455]
最先端のブレイン・トゥ・テキストシステムは、ニューラルネットワークを使用して脳信号から直接言語を復号することに成功した。
本稿では,自然読解課題における語彙的脳波(EEG)-テキスト列列列復号化とゼロショット文感性分類に問題を拡張する。
脳波-テキストデコーディングで40.1%のBLEU-1スコア、ゼロショット脳波に基づく3次感情分類で55.6%のF1スコアを達成し、教師付きベースラインを著しく上回る結果となった。
論文 参考訳(メタデータ) (2021-12-05T21:57:22Z) - DeepA: A Deep Neural Analyzer For Speech And Singing Vocoding [71.73405116189531]
本稿では,従来のボコーダで定義されている音声をエミュレートする入力音声から,F0と音節/音節/音節のエンコーディングを抽出するニューラルボコーダを提案する。
ディープ・ニューラル・アナライザは学習可能であるため、信号の再構成と操作がより正確であり、音声から歌への一般化が期待できる。
論文 参考訳(メタデータ) (2021-10-13T01:39:57Z) - Diffusion-Weighted Magnetic Resonance Brain Images Generation with
Generative Adversarial Networks and Variational Autoencoders: A Comparison
Study [55.78588835407174]
本研究では,高画質,多彩で現実的な拡散重み付き磁気共鳴画像が深部生成モデルを用いて合成可能であることを示す。
Introspective Variational AutoencoderとStyle-Based GANの2つのネットワークを医療分野におけるデータ拡張の資格として提示する。
論文 参考訳(メタデータ) (2020-06-24T18:00:01Z) - A Novel Deep Learning Architecture for Decoding Imagined Speech from EEG [2.4063592468412267]
我々は、ディープニューラルネットワーク(DNN)を用いて、"in"と"cooperate"の単語を分類する新しいアーキテクチャを提案する。
9つの脳波チャンネルは、下層の皮質活動を最もよく捉え、共通空間パターンを用いて選択される。
我々は最先端の結果に匹敵する精度を達成した。
論文 参考訳(メタデータ) (2020-03-19T00:57:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。