Fugu-MT 論文翻訳(概要): End-to-end translation of human neural activity to speech with a dual-dual generative adversarial network

論文の概要: End-to-end translation of human neural activity to speech with a dual-dual generative adversarial network

arxiv url: http://arxiv.org/abs/2110.06634v1
Date: Wed, 13 Oct 2021 10:54:41 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-14 21:32:43.273907
Title: End-to-end translation of human neural activity to speech with a dual-dual generative adversarial network
Title（参考訳）: 二重二重生成対数ネットワークを用いた音声への人間の神経活動のエンドツーエンド翻訳
Authors: Yina Guo, Xiaofei Zhang, Zhenying Gong, Anhong Wang and Wenwu Wang
Abstract要約: 人間の神経活動を直接音声に翻訳するエンド・ツー・エンドモデルを提案する。参加者の注意を引くための新しい脳波データセット(EEG)を作成します。提案手法は,ニューラルアクティビティの単語長と文長のシーケンスを音声に翻訳する。
参考スコア（独自算出の注目度）: 39.014888541156296
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In a recent study of auditory evoked potential (AEP) based brain-computer interface (BCI), it was shown that, with an encoder-decoder framework, it is possible to translate human neural activity to speech (T-CAS). However, current encoder-decoder-based methods achieve T-CAS often with a two-step method where the information is passed between the encoder and decoder with a shared dimension reduction vector, which may result in a loss of information. A potential approach to this problem is to design an end-to-end method by using a dual generative adversarial network (DualGAN) without dimension reduction of passing information, but it cannot realize one-to-one signal-to-signal translation (see Fig.1 (a) and (b)). In this paper, we propose an end-to-end model to translate human neural activity to speech directly, create a new electroencephalogram (EEG) datasets for participants with good attention by design a device to detect participants' attention, and introduce a dual-dual generative adversarial network (Dual-DualGAN) (see Fig. 1 (c) and (d)) to address an end-to-end translation of human neural activity to speech (ET-CAS) problem by group labelling EEG signals and speech signals, inserting a transition domain to realize cross-domain mapping. In the transition domain, the transition signals are cascaded by the corresponding EEG and speech signals in a certain proportion, which can build bridges for EEG and speech signals without corresponding features, and realize one-to-one cross-domain EEG-to-speech translation. The proposed method can translate word-length and sentence-length sequences of neural activity to speech. Experimental evaluation has been conducted to show that the proposed method significantly outperforms state-of-the-art methods on both words and sentences of auditory stimulus.
Abstract（参考訳）: 聴覚誘発電位(aep)に基づく脳-コンピュータインタフェース(bci)に関する最近の研究で、エンコーダ-デコーダフレームワークを用いて、人間の神経活動を音声(t-cas)に翻訳できることが示されている。しかし、現在のエンコーダデコーダベースの手法は、しばしば2段階の方法でT-CASを達成し、エンコーダとデコーダの間で情報を共有次元還元ベクトルで伝達し、情報が失われる可能性がある。この問題に対する潜在的アプローチは,2次生成逆数ネットワーク(DualGAN)を2次元化せずに設計することであるが,1対1の信号-信号-信号変換は実現できない(図1参照)。 (a)及び (b)。本稿では、人間の神経活動を直接音声に変換するエンド・ツー・エンドモデルを提案し、参加者の注意を検知するデバイスを設計し、参加者の注意を引くための新しい脳波(EEG)データセットを作成し、二重二重生成対向ネットワーク(Dual-DualGAN)を導入する(図1参照)。 (c)および (d) 脳波信号と音声信号をグループラベルし、トランジションドメインを挿入し、クロスドメインマッピングを実現することで、人間の神経活動から音声へのエンドツーエンド翻訳(ET-CAS)問題に対処する。遷移領域では、遷移信号は対応する脳波と音声信号によって一定の割合でカスケードされ、対応する特徴のない脳波と音声信号のブリッジを構築し、1対1のクロスドメイン脳波音声変換を実現する。提案手法は,ニューラルアクティビティの単語長と文長のシーケンスを音声に翻訳する。提案手法が聴覚刺激の単語と文の両方において最先端の手法を著しく上回っていることを示す実験的検討を行った。

関連論文リスト

Enhancing Listened Speech Decoding from EEG via Parallel Phoneme Sequence Prediction [36.38186261968484]
本稿では脳波(EEG)信号から聴取音声の復号化を促進する新しい手法を提案する。テキスト音素列を同時に復号する補助音素予測器を用いる。
論文参考訳（メタデータ） (2025-01-08T21:11:35Z)
Towards Linguistic Neural Representation Learning and Sentence Retrieval from Electroencephalogram Recordings [27.418738450536047]
脳波信号を文に変換するための2ステップパイプラインを提案する。まず,自然読解中に記録された脳波データから単語レベルの意味情報を学習できることを確認する。脳波エンコーダからの予測に基づいて文章を検索するために,学習不要な検索手法を用いる。
論文参考訳（メタデータ） (2024-08-08T03:40:25Z)
EEGDiR: Electroencephalogram denoising network for temporal information storage and global modeling through Retentive Network [11.491355463353731]
我々はRetnetを自然言語処理から脳波分解まで導入する。 Retnetの脳波への直接的適用は脳波信号の1次元の性質のため不可能である。本稿では,1次元の脳波信号を2次元に変換してネットワーク入力として用いる信号埋め込み手法を提案する。
論文参考訳（メタデータ） (2024-03-20T15:04:21Z)
Diff-E: Diffusion-based Learning for Decoding Imagined Speech EEG [17.96977778655143]
本稿では,DDPMとDiff-Eという条件付きオートエンコーダを用いた脳波信号のデコード手法を提案する。その結果,Diff-Eは従来の機械学習手法やベースラインモデルと比較して脳波信号の復号精度を著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-07-26T07:12:39Z)
LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文参考訳（メタデータ） (2022-11-05T04:03:55Z)
Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文参考訳（メタデータ） (2022-05-02T17:59:02Z)
Speaker Embedding-aware Neural Diarization: a Novel Framework for Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文参考訳（メタデータ） (2022-03-18T06:40:39Z)
Cross-Modality Brain Tumor Segmentation via Bidirectional Global-to-Local Unsupervised Domain Adaptation [61.01704175938995]
本論文では,UDAスキームに基づくBiGL(Bidirectional Global-to-Local)適応フレームワークを提案する。具体的には、脳腫瘍をセグメント化するために、双方向画像合成およびセグメンテーションモジュールを提案する。提案手法は, 最先端の非教師なし領域適応法を大きなマージンで上回っている。
論文参考訳（メタデータ） (2021-05-17T10:11:45Z)
Correlation based Multi-phasal models for improved imagined speech EEG recognition [22.196642357767338]
本研究の目的は,特定の音声単位に対応する音声の動きを,話し,想像,実行しながら記録された多相脳波データに含まれる並列情報から利益を得ることである。ニューラルネットワークを用いた二相共通表現学習モジュールは、解析フェーズと支援フェーズ間の相関をモデル化する。提案手法は復号化時の多相データの非可利用性をさらに扱う。
論文参考訳（メタデータ） (2020-11-04T09:39:53Z)
Class-Conditional Defense GAN Against End-to-End Speech Attacks [82.21746840893658]
本稿では,DeepSpeech や Lingvo といった先進的な音声テキストシステムを騙すために開発された,エンドツーエンドの敵対攻撃に対する新しいアプローチを提案する。従来の防御手法とは異なり、提案手法は入力信号のオートエンコードのような低レベル変換を直接利用しない。我々の防衛GANは、単語誤り率と文レベルの認識精度において、従来の防衛アルゴリズムよりもかなり優れています。
論文参考訳（メタデータ） (2020-10-22T00:02:02Z)
Electroencephalography signal processing based on textural features for monitoring the driver's state by a Brain-Computer Interface [3.613072342189595]
仮想脳-コンピュータインタフェース(BCI)システムにおいて,運転者の警戒度を推定する指標としてテキスト処理手法を検討する。提案手法の新規性は、前処理された脳波データからの特徴抽出に1次元局所バイナリパターン (1D-LBP) アルゴリズムを用いることに依存する。分析の結果,1D-LBPの採用により性能が大幅に向上したことが明らかとなった。
論文参考訳（メタデータ） (2020-10-13T14:16:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。