論文の概要: Du-IN: Discrete units-guided mask modeling for decoding speech from Intracranial Neural signals
- arxiv url: http://arxiv.org/abs/2405.11459v1
- Date: Sun, 19 May 2024 06:00:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 17:28:11.742455
- Title: Du-IN: Discrete units-guided mask modeling for decoding speech from Intracranial Neural signals
- Title(参考訳): Du-IN:頭蓋内神経信号からの音声復号のための離散単位誘導マスクモデリング
- Authors: Hui Zheng, Hai-Teng Wang, Wei-Bang Jiang, Zhong-Tao Chen, Li He, Pei-Yang Lin, Peng-Hu Wei, Guo-Guang Zhao, Yun-Zhe Liu,
- Abstract要約: 侵入型脳-コンピュータインタフェースは、高い性能のために大きな注目を集めている。
特定の脳領域からコンテキスト埋め込みを抽出できるモデルを開発した。
本モデルでは, 下流61ワード分類タスクにおけるSOTA性能が, 全ベースラインモデルを上回っている。
- 参考スコア(独自算出の注目度): 5.283718601431859
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Invasive brain-computer interfaces have garnered significant attention due to their high performance. The current intracranial stereoElectroEncephaloGraphy (sEEG) foundation models typically build univariate representations based on a single channel. Some of them further use Transformer to model the relationship among channels. However, due to the locality and specificity of brain computation, their performance on more difficult tasks, e.g., speech decoding, which demands intricate processing in specific brain regions, is yet to be fully investigated. We hypothesize that building multi-variate representations within certain brain regions can better capture the specific neural processing. To explore this hypothesis, we collect a well-annotated Chinese word-reading sEEG dataset, targeting language-related brain networks, over 12 subjects. Leveraging this benchmark dataset, we developed the Du-IN model that can extract contextual embeddings from specific brain regions through discrete codebook-guided mask modeling. Our model achieves SOTA performance on the downstream 61-word classification task, surpassing all baseline models. Model comparison and ablation analysis reveal that our design choices, including (i) multi-variate representation by fusing channels in vSMC and STG regions and (ii) self-supervision by discrete codebook-guided mask modeling, significantly contribute to these performances. Collectively, our approach, inspired by neuroscience findings, capitalizing on multi-variate neural representation from specific brain regions, is suitable for invasive brain modeling. It marks a promising neuro-inspired AI approach in BCI.
- Abstract(参考訳): 侵入型脳-コンピュータインタフェースは、高い性能のために大きな注目を集めている。
現在の頭蓋内ステレオElectroEncephaloGraphy (sEEG)基盤モデルは、通常、1つのチャネルに基づいて単変量表現を構築する。
さらにTransformerを使ってチャンネル間の関係をモデル化する人もいる。
しかし、脳計算の局所性と特異性のため、特定の脳領域で複雑な処理を必要とする音声復号処理など、より困難なタスクにおける性能については、まだ完全には研究されていない。
我々は、特定の脳領域内で多変量表現を構築することで、特定のニューラル処理をよりよく捉えることができると仮定する。
この仮説を探索するため、12人以上の被験者を対象に、言語関連脳ネットワークを対象とする、よく注釈付き中国語単語読解データセットを収集した。
このベンチマークデータセットを活用することで、個別のコードブック誘導マスクモデリングにより、特定の脳領域からコンテキスト埋め込みを抽出できるDu-INモデルを開発した。
本モデルでは, 下流61ワード分類タスクにおけるSOTA性能が, 全ベースラインモデルを上回っている。
モデル比較とアブレーション分析により、我々の設計選択が明らかになる
i)vSMC領域とSTG領域の融合チャネルによる多変量表現
(II)離散コードブック誘導マスクモデリングによる自己監督は,これらの性能に大きく寄与する。
神経科学的な知見にインスパイアされた我々のアプローチは、特定の脳領域から多変量神経表現に乗じて、侵襲的な脳モデリングに適している。
これは、BCIにおける有望な神経インスパイアされたAIアプローチである。
関連論文リスト
- Interpretable Spatio-Temporal Embedding for Brain Structural-Effective Network with Ordinary Differential Equation [56.34634121544929]
本研究では,まず動的因果モデルを用いて脳効果ネットワークを構築する。
次に、STE-ODE(Spatio-Temporal Embedding ODE)と呼ばれる解釈可能なグラフ学習フレームワークを導入する。
このフレームワークは、構造的および効果的なネットワーク間の動的相互作用を捉えることを目的とした、特異的に設計されたノード埋め込み層を含んでいる。
論文 参考訳(メタデータ) (2024-05-21T20:37:07Z) - Language Generation from Brain Recordings [68.97414452707103]
本稿では,大言語モデルと意味脳デコーダの容量を利用した生成言語BCIを提案する。
提案モデルでは,視覚的・聴覚的言語刺激のセマンティック内容に整合したコヒーレントな言語系列を生成することができる。
本研究は,直接言語生成におけるBCIの活用の可能性と可能性を示すものである。
論文 参考訳(メタデータ) (2023-11-16T13:37:21Z) - Brain-Driven Representation Learning Based on Diffusion Model [25.375490061512]
本研究では,拡散確率モデル(DDPM)について検討した。
条件付きオートエンコーダとDDPMを併用することで、我々の新しいアプローチは従来の機械学習アルゴリズムよりもかなり優れています。
本研究は,音声関連脳波信号解析のための高度な計算手法として,DDPMの可能性を強調した。
論文 参考訳(メタデータ) (2023-11-14T05:59:58Z) - Seeing Beyond the Brain: Conditional Diffusion Model with Sparse Masked
Modeling for Vision Decoding [0.0]
MinD-Vis:Double-Conditioned Latent Diffusion Model for Human Vision Decodingを提案する。
我々はMinD-Visが、非常に少ないペアアノテーションを用いて、脳の記録から意味的に一致する詳細を再現できることを示す。
論文 参考訳(メタデータ) (2022-11-13T17:04:05Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Deep Representations for Time-varying Brain Datasets [4.129225533930966]
本稿では、領域マップされたfMRIシーケンスと構造接続性の両方を入力として組み込んだ効率的なグラフニューラルネットワークモデルを構築する。
サンプルレベルの適応的隣接行列を学習することで、潜伏する脳のダイナミクスのよい表現を見つけ出す。
これらのモジュールは容易に適応でき、神経科学領域以外の用途にも有用である可能性がある。
論文 参考訳(メタデータ) (2022-05-23T21:57:31Z) - Open Vocabulary Electroencephalography-To-Text Decoding and Zero-shot
Sentiment Classification [78.120927891455]
最先端のブレイン・トゥ・テキストシステムは、ニューラルネットワークを使用して脳信号から直接言語を復号することに成功した。
本稿では,自然読解課題における語彙的脳波(EEG)-テキスト列列列復号化とゼロショット文感性分類に問題を拡張する。
脳波-テキストデコーディングで40.1%のBLEU-1スコア、ゼロショット脳波に基づく3次感情分類で55.6%のF1スコアを達成し、教師付きベースラインを著しく上回る結果となった。
論文 参考訳(メタデータ) (2021-12-05T21:57:22Z) - Continuous Emotion Recognition with Spatiotemporal Convolutional Neural
Networks [82.54695985117783]
In-theld でキャプチャした長いビデオシーケンスを用いて,持続的な感情認識のための最先端のディープラーニングアーキテクチャの適合性を検討する。
我々は,2D-CNNと長期記憶ユニットを組み合わせた畳み込みリカレントニューラルネットワークと,2D-CNNモデルの微調整時の重みを膨らませて構築した膨らませた3D-CNNモデルを開発した。
論文 参考訳(メタデータ) (2020-11-18T13:42:05Z) - A Multi-Task Deep Learning Framework to Localize the Eloquent Cortex in
Brain Tumor Patients Using Dynamic Functional Connectivity [7.04584289867204]
脳腫瘍患者の大脳皮質の言語と運動領域を同時に局在させるために動的機能接続を用いた新しいディープラーニングフレームワークを提案する。
本モデルは,従来の深層学習手法よりも高い局所化精度を達成し,左半球側方化症例で訓練した場合でも,両言語領域を識別できる。
論文 参考訳(メタデータ) (2020-11-17T18:18:09Z) - Correlation based Multi-phasal models for improved imagined speech EEG
recognition [22.196642357767338]
本研究の目的は,特定の音声単位に対応する音声の動きを,話し,想像,実行しながら記録された多相脳波データに含まれる並列情報から利益を得ることである。
ニューラルネットワークを用いた二相共通表現学習モジュールは、解析フェーズと支援フェーズ間の相関をモデル化する。
提案手法は復号化時の多相データの非可利用性をさらに扱う。
論文 参考訳(メタデータ) (2020-11-04T09:39:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。