論文の概要: End-to-end translation of human neural activity to speech with a
dual-dual generative adversarial network
- arxiv url: http://arxiv.org/abs/2110.06634v1
- Date: Wed, 13 Oct 2021 10:54:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-14 21:32:43.273907
- Title: End-to-end translation of human neural activity to speech with a
dual-dual generative adversarial network
- Title(参考訳): 二重二重生成対数ネットワークを用いた音声への人間の神経活動のエンドツーエンド翻訳
- Authors: Yina Guo, Xiaofei Zhang, Zhenying Gong, Anhong Wang and Wenwu Wang
- Abstract要約: 人間の神経活動を直接音声に翻訳するエンド・ツー・エンドモデルを提案する。
参加者の注意を引くための新しい脳波データセット(EEG)を作成します。
提案手法は,ニューラルアクティビティの単語長と文長のシーケンスを音声に翻訳する。
- 参考スコア(独自算出の注目度): 39.014888541156296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In a recent study of auditory evoked potential (AEP) based brain-computer
interface (BCI), it was shown that, with an encoder-decoder framework, it is
possible to translate human neural activity to speech (T-CAS). However, current
encoder-decoder-based methods achieve T-CAS often with a two-step method where
the information is passed between the encoder and decoder with a shared
dimension reduction vector, which may result in a loss of information. A
potential approach to this problem is to design an end-to-end method by using a
dual generative adversarial network (DualGAN) without dimension reduction of
passing information, but it cannot realize one-to-one signal-to-signal
translation (see Fig.1 (a) and (b)). In this paper, we propose an end-to-end
model to translate human neural activity to speech directly, create a new
electroencephalogram (EEG) datasets for participants with good attention by
design a device to detect participants' attention, and introduce a dual-dual
generative adversarial network (Dual-DualGAN) (see Fig. 1 (c) and (d)) to
address an end-to-end translation of human neural activity to speech (ET-CAS)
problem by group labelling EEG signals and speech signals, inserting a
transition domain to realize cross-domain mapping. In the transition domain,
the transition signals are cascaded by the corresponding EEG and speech signals
in a certain proportion, which can build bridges for EEG and speech signals
without corresponding features, and realize one-to-one cross-domain
EEG-to-speech translation. The proposed method can translate word-length and
sentence-length sequences of neural activity to speech. Experimental evaluation
has been conducted to show that the proposed method significantly outperforms
state-of-the-art methods on both words and sentences of auditory stimulus.
- Abstract(参考訳): 聴覚誘発電位(aep)に基づく脳-コンピュータインタフェース(bci)に関する最近の研究で、エンコーダ-デコーダフレームワークを用いて、人間の神経活動を音声(t-cas)に翻訳できることが示されている。
しかし、現在のエンコーダデコーダベースの手法は、しばしば2段階の方法でT-CASを達成し、エンコーダとデコーダの間で情報を共有次元還元ベクトルで伝達し、情報が失われる可能性がある。
この問題に対する潜在的アプローチは,2次生成逆数ネットワーク(DualGAN)を2次元化せずに設計することであるが,1対1の信号-信号-信号変換は実現できない(図1参照)。
(a)及び
(b)。
本稿では、人間の神経活動を直接音声に変換するエンド・ツー・エンドモデルを提案し、参加者の注意を検知するデバイスを設計し、参加者の注意を引くための新しい脳波(EEG)データセットを作成し、二重二重生成対向ネットワーク(Dual-DualGAN)を導入する(図1参照)。
(c)および
(d) 脳波信号と音声信号をグループラベルし、トランジションドメインを挿入し、クロスドメインマッピングを実現することで、人間の神経活動から音声へのエンドツーエンド翻訳(ET-CAS)問題に対処する。
遷移領域では、遷移信号は対応する脳波と音声信号によって一定の割合でカスケードされ、対応する特徴のない脳波と音声信号のブリッジを構築し、1対1のクロスドメイン脳波音声変換を実現する。
提案手法は,ニューラルアクティビティの単語長と文長のシーケンスを音声に翻訳する。
提案手法が聴覚刺激の単語と文の両方において最先端の手法を著しく上回っていることを示す実験的検討を行った。
関連論文リスト
- Diff-E: Diffusion-based Learning for Decoding Imagined Speech EEG [17.96977778655143]
本稿では,DDPMとDiff-Eという条件付きオートエンコーダを用いた脳波信号のデコード手法を提案する。
その結果,Diff-Eは従来の機械学習手法やベースラインモデルと比較して脳波信号の復号精度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-07-26T07:12:39Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Synthesized Speech Detection Using Convolutional Transformer-Based
Spectrogram Analysis [16.93803259128475]
合成音声は、報告された音声信号を作成し、その信号の内容を話さない人に帰属するなど、悪質な目的に使用できる。
本稿では,合成音声検出のためのコンパクト畳み込み変換器を用いて,スペクトル形音声信号の解析を行う。
論文 参考訳(メタデータ) (2022-05-03T22:05:35Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Cross-Modality Brain Tumor Segmentation via Bidirectional
Global-to-Local Unsupervised Domain Adaptation [61.01704175938995]
本論文では,UDAスキームに基づくBiGL(Bidirectional Global-to-Local)適応フレームワークを提案する。
具体的には、脳腫瘍をセグメント化するために、双方向画像合成およびセグメンテーションモジュールを提案する。
提案手法は, 最先端の非教師なし領域適応法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-05-17T10:11:45Z) - Extracting the Locus of Attention at a Cocktail Party from Single-Trial
EEG using a Joint CNN-LSTM Model [0.1529342790344802]
人間の脳は、複数の話者シナリオにおいて、特定の話者を干渉する話者から分離する際、非常によく機能する。
本稿では,聴覚の注意を喚起するために,結合畳み込みニューラルネットワーク(CNN)-長短期記憶(LSTM)モデルを提案する。
論文 参考訳(メタデータ) (2021-02-08T01:06:48Z) - Correlation based Multi-phasal models for improved imagined speech EEG
recognition [22.196642357767338]
本研究の目的は,特定の音声単位に対応する音声の動きを,話し,想像,実行しながら記録された多相脳波データに含まれる並列情報から利益を得ることである。
ニューラルネットワークを用いた二相共通表現学習モジュールは、解析フェーズと支援フェーズ間の相関をモデル化する。
提案手法は復号化時の多相データの非可利用性をさらに扱う。
論文 参考訳(メタデータ) (2020-11-04T09:39:53Z) - Class-Conditional Defense GAN Against End-to-End Speech Attacks [82.21746840893658]
本稿では,DeepSpeech や Lingvo といった先進的な音声テキストシステムを騙すために開発された,エンドツーエンドの敵対攻撃に対する新しいアプローチを提案する。
従来の防御手法とは異なり、提案手法は入力信号のオートエンコードのような低レベル変換を直接利用しない。
我々の防衛GANは、単語誤り率と文レベルの認識精度において、従来の防衛アルゴリズムよりもかなり優れています。
論文 参考訳(メタデータ) (2020-10-22T00:02:02Z) - Electroencephalography signal processing based on textural features for
monitoring the driver's state by a Brain-Computer Interface [3.613072342189595]
仮想脳-コンピュータインタフェース(BCI)システムにおいて,運転者の警戒度を推定する指標としてテキスト処理手法を検討する。
提案手法の新規性は、前処理された脳波データからの特徴抽出に1次元局所バイナリパターン (1D-LBP) アルゴリズムを用いることに依存する。
分析の結果,1D-LBPの採用により性能が大幅に向上したことが明らかとなった。
論文 参考訳(メタデータ) (2020-10-13T14:16:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。