Fugu-MT 論文翻訳(概要): Synthesizing Speech from Intracranial Depth Electrodes using an Encoder-Decoder Framework

論文の概要: Synthesizing Speech from Intracranial Depth Electrodes using an Encoder-Decoder Framework

arxiv url: http://arxiv.org/abs/2111.01457v1
Date: Tue, 2 Nov 2021 09:43:21 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-03 15:07:13.202512
Title: Synthesizing Speech from Intracranial Depth Electrodes using an Encoder-Decoder Framework
Title（参考訳）: エンコーダ・デコーダによる頭蓋内深部電極からの音声合成
Authors: Jonas Kohler, Maarten C. Ottenhoff, Sophocles Goulis, Miguel Angrick, Albert J. Colon, Louis Wagner, Simon Tousseyn, Pieter L. Kubben, Christian Herff
Abstract要約: 音声神経補綴は、変形性関節症や変形性関節症患者のコミュニケーションを可能にする可能性がある。近年の進歩は、皮質表面に置かれた電磁気格子から高品質なテキストデコーディングと音声合成を実証している。
参考スコア（独自算出の注目度）: 1.623136488969658
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Speech Neuroprostheses have the potential to enable communication for people with dysarthria or anarthria. Recent advances have demonstrated high-quality text decoding and speech synthesis from electrocorticographic grids placed on the cortical surface. Here, we investigate a less invasive measurement modality, namely stereotactic EEG (sEEG) that provides sparse sampling from multiple brain regions, including subcortical regions. To evaluate whether sEEG can also be used to synthesize high-quality audio from neural recordings, we employ a recurrent encoder-decoder framework based on modern deep learning methods. We demonstrate that high-quality speech can be reconstructed from these minimally invasive recordings, despite a limited amount of training data. Finally, we utilize variational feature dropout to successfully identify the most informative electrode contacts.
Abstract（参考訳）: 言語ニューロプロテーゼは、構音障害や不整脈の人のためのコミュニケーションを可能にする可能性を秘めている。最近の進歩は、皮質表面に配置した電気皮質グリッドから高品質なテキストデコードと音声合成を実証している。そこで本研究では,皮質下領域を含む複数の脳領域からスパースサンプリングを行う定位脳波(sEEG)の低侵襲計測法について検討する。ニューラル記録から高品質な音声を合成するのにsEEGが使えるかどうかを評価するために,現代のディープラーニング手法に基づく繰り返しエンコーダ・デコーダ・フレームワークを用いる。少ないトレーニングデータにもかかわらず,これらの低侵襲な記録から高品質な音声を再構成できることを実証する。最後に,最も情報性の高い電極接触の同定にバラツキ特徴ドロップアウトを用いる。

関連論文リスト

How to Label Resynthesized Audio: The Dual Role of Neural Audio Codecs in Audio Deepfake Detection [60.88800374832363]
最近のスプーフ検出研究では、ボコーダとニューラルオーディオコーデックの合成波形を用いて攻撃者をシミュレートしている。ラベル付け選択の違いが検出性能にどのように影響するかを調べ,ラベル付け戦略に対する洞察を提供する。
論文参考訳（メタデータ） (2026-02-18T10:29:07Z)
MEGState: Phoneme Decoding from Magnetoencephalography Signals [15.480040965084214]
本稿では,MEG信号からの音素デコードのための新しいアーキテクチャであるMEGStateを紹介する。 MeGStateは聴覚刺激によって誘発されるきめ細かい皮質反応を捉える。これらの知見は,MEGをベースとした音素デコーディングが,非侵襲的音声脳-コンピュータインタフェースへのスケーラブルな経路としての可能性を強調した。
論文参考訳（メタデータ） (2025-12-19T13:02:31Z)
Neural Decoding of Overt Speech from ECoG Using Vision Transformers and Contrastive Representation Learning [1.58476321728042]
Speech Brain Computer Interfacesは、重度の麻痺を抱える人々に対して、コミュニケーションができない有望なソリューションを提供する。近年の研究では、表面電図(ECoG)や皮質内記録からの理解不能音声の再構築が実証されている。本稿では,エンコーダ-デコーダディープニューラルアーキテクチャに基づいて,視覚変換器とコントラスト学習を統合したオフライン音声復号パイプラインを提案する。
論文参考訳（メタデータ） (2025-12-04T09:47:15Z)
Decoding Phone Pairs from MEG Signals Across Speech Modalities [0.4054486015338004]
脳磁図信号を用いて、音声生成や知覚タスク中の脳活動から携帯電話を復号する方法について検討した。その結果,受動聴取や再生モダリティと比較して,音声生成時の復号精度が有意に高かった。
論文参考訳（メタデータ） (2025-05-21T10:31:34Z)
sEEG-based Encoding for Sentence Retrieval: A Contrastive Learning Approach to Brain-Language Alignment [8.466223794246261]
本稿では,凍結したCLIPモデルの文埋め込み空間に単射ステレオ脳波信号(sEEG)を投影するコントラスト学習フレームワークであるSSENSEを提案する。本手法は,自然主義映画視聴データセットから,時系列のsEEGと音声の書き起こしについて評価する。
論文参考訳（メタデータ） (2025-04-20T03:01:42Z)
A multimodal LLM for the non-invasive decoding of spoken text from brain recordings [0.4187344935012482]
fMRI信号から音声テキストを復号するためのマルチモーダルLLMを提案する。提案アーキテクチャは, (i) 特定のトランスフォーマーから派生したエンコーダ上に構築され, エンコーダに付加された埋め込み層と, 最先端のアテンション機構が組み込まれている。 fMRIと会話信号が同期的に記録される、人間-ロボット相互作用と人間-ロボット相互作用のセットからなるコーパス上で行われたベンチマーク。
論文参考訳（メタデータ） (2024-09-29T14:03:39Z)
CoLM-DSR: Leveraging Neural Codec Language Modeling for Multi-Modal Dysarthric Speech Reconstruction [61.067153685104394]
変形性音声再建(DSR)は、変形性音声を正常な音声に変換することを目的としている。話者の類似度は低く、プロソディの自然度は低い。本稿では、ニューラルネットワークモデリングを利用して再構成結果を改善するマルチモーダルDSRモデルを提案する。
論文参考訳（メタデータ） (2024-06-12T15:42:21Z)
Improving Speech Decoding from ECoG with Self-Supervised Pretraining [0.0]
ノイズコントラスト損失を用いて音声の潜在表現を学習する自己教師付き完全畳み込みモデルを再設計する。我々は、このモデルを心電図記録(ECoG)に基づいて訓練する。次に、ラベル付き音声セッションからwav2vecの表現空間にECoGを変換し、最後に教師付きエンコーダデコーダをトレーニングし、これらの表現をテキストにマッピングします。
論文参考訳（メタデータ） (2024-05-28T22:48:53Z)
Surrogate Gradient Spiking Neural Networks as Encoders for Large Vocabulary Continuous Speech Recognition [91.39701446828144]
スパイクニューラルネットワークは, 代理勾配法を用いて, 通常のリカレントニューラルネットワークのように訓練可能であることを示す。彼らは音声コマンド認識タスクについて有望な結果を示した。繰り返し発生する非スパイキングとは対照的に、ゲートを使わずに爆発する勾配問題に対して堅牢性を示す。
論文参考訳（メタデータ） (2022-12-01T12:36:26Z)
End-to-End Binaural Speech Synthesis [71.1869877389535]
本稿では,低ビットレート音声システムと強力なデコーダを組み合わせたエンドツーエンド音声合成システムを提案する。実感的な聴覚シーンを作るために必要な環境効果を捉える上で, 対人的損失がもたらす効果を実証する。
論文参考訳（メタデータ） (2022-07-08T05:18:36Z)
Avocodo: Generative Adversarial Network for Artifact-free Vocoder [5.956832212419584]
本稿では,GANをベースとしたAvocodoと呼ばれるニューラルボコーダを提案する。 Avocodoは、従来のGANベースのニューラルボコーダを音声合成と歌声合成の両方で上回り、人工音声を合成することができる。
論文参考訳（メタデータ） (2022-06-27T15:54:41Z)
Open Vocabulary Electroencephalography-To-Text Decoding and Zero-shot Sentiment Classification [78.120927891455]
最先端のブレイン・トゥ・テキストシステムは、ニューラルネットワークを使用して脳信号から直接言語を復号することに成功した。本稿では,自然読解課題における語彙的脳波(EEG)-テキスト列列列復号化とゼロショット文感性分類に問題を拡張する。脳波-テキストデコーディングで40.1%のBLEU-1スコア、ゼロショット脳波に基づく3次感情分類で55.6%のF1スコアを達成し、教師付きベースラインを著しく上回る結果となった。
論文参考訳（メタデータ） (2021-12-05T21:57:22Z)
DeepA: A Deep Neural Analyzer For Speech And Singing Vocoding [71.73405116189531]
本稿では,従来のボコーダで定義されている音声をエミュレートする入力音声から,F0と音節/音節/音節のエンコーディングを抽出するニューラルボコーダを提案する。ディープ・ニューラル・アナライザは学習可能であるため、信号の再構成と操作がより正確であり、音声から歌への一般化が期待できる。
論文参考訳（メタデータ） (2021-10-13T01:39:57Z)
Diffusion-Weighted Magnetic Resonance Brain Images Generation with Generative Adversarial Networks and Variational Autoencoders: A Comparison Study [55.78588835407174]
本研究では,高画質,多彩で現実的な拡散重み付き磁気共鳴画像が深部生成モデルを用いて合成可能であることを示す。 Introspective Variational AutoencoderとStyle-Based GANの2つのネットワークを医療分野におけるデータ拡張の資格として提示する。
論文参考訳（メタデータ） (2020-06-24T18:00:01Z)
A Novel Deep Learning Architecture for Decoding Imagined Speech from EEG [2.4063592468412267]
我々は、ディープニューラルネットワーク(DNN)を用いて、"in"と"cooperate"の単語を分類する新しいアーキテクチャを提案する。 9つの脳波チャンネルは、下層の皮質活動を最もよく捉え、共通空間パターンを用いて選択される。我々は最先端の結果に匹敵する精度を達成した。
論文参考訳（メタデータ） (2020-03-19T00:57:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。