Fugu-MT 論文翻訳(概要): Du-IN: Discrete units-guided mask modeling for decoding speech from Intracranial Neural signals

論文の概要: Du-IN: Discrete units-guided mask modeling for decoding speech from Intracranial Neural signals

arxiv url: http://arxiv.org/abs/2405.11459v1
Date: Sun, 19 May 2024 06:00:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-21 17:28:11.742455
Title: Du-IN: Discrete units-guided mask modeling for decoding speech from Intracranial Neural signals
Title（参考訳）: Du-IN:頭蓋内神経信号からの音声復号のための離散単位誘導マスクモデリング
Authors: Hui Zheng, Hai-Teng Wang, Wei-Bang Jiang, Zhong-Tao Chen, Li He, Pei-Yang Lin, Peng-Hu Wei, Guo-Guang Zhao, Yun-Zhe Liu,
Abstract要約: 侵入型脳-コンピュータインタフェースは、高い性能のために大きな注目を集めている。特定の脳領域からコンテキスト埋め込みを抽出できるモデルを開発した。本モデルでは, 下流61ワード分類タスクにおけるSOTA性能が, 全ベースラインモデルを上回っている。
参考スコア（独自算出の注目度）: 5.283718601431859
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Invasive brain-computer interfaces have garnered significant attention due to their high performance. The current intracranial stereoElectroEncephaloGraphy (sEEG) foundation models typically build univariate representations based on a single channel. Some of them further use Transformer to model the relationship among channels. However, due to the locality and specificity of brain computation, their performance on more difficult tasks, e.g., speech decoding, which demands intricate processing in specific brain regions, is yet to be fully investigated. We hypothesize that building multi-variate representations within certain brain regions can better capture the specific neural processing. To explore this hypothesis, we collect a well-annotated Chinese word-reading sEEG dataset, targeting language-related brain networks, over 12 subjects. Leveraging this benchmark dataset, we developed the Du-IN model that can extract contextual embeddings from specific brain regions through discrete codebook-guided mask modeling. Our model achieves SOTA performance on the downstream 61-word classification task, surpassing all baseline models. Model comparison and ablation analysis reveal that our design choices, including (i) multi-variate representation by fusing channels in vSMC and STG regions and (ii) self-supervision by discrete codebook-guided mask modeling, significantly contribute to these performances. Collectively, our approach, inspired by neuroscience findings, capitalizing on multi-variate neural representation from specific brain regions, is suitable for invasive brain modeling. It marks a promising neuro-inspired AI approach in BCI.
Abstract（参考訳）: 侵入型脳-コンピュータインタフェースは、高い性能のために大きな注目を集めている。現在の頭蓋内ステレオElectroEncephaloGraphy (sEEG)基盤モデルは、通常、1つのチャネルに基づいて単変量表現を構築する。さらにTransformerを使ってチャンネル間の関係をモデル化する人もいる。しかし、脳計算の局所性と特異性のため、特定の脳領域で複雑な処理を必要とする音声復号処理など、より困難なタスクにおける性能については、まだ完全には研究されていない。我々は、特定の脳領域内で多変量表現を構築することで、特定のニューラル処理をよりよく捉えることができると仮定する。この仮説を探索するため、12人以上の被験者を対象に、言語関連脳ネットワークを対象とする、よく注釈付き中国語単語読解データセットを収集した。このベンチマークデータセットを活用することで、個別のコードブック誘導マスクモデリングにより、特定の脳領域からコンテキスト埋め込みを抽出できるDu-INモデルを開発した。本モデルでは, 下流61ワード分類タスクにおけるSOTA性能が, 全ベースラインモデルを上回っている。モデル比較とアブレーション分析により、我々の設計選択が明らかになる i)vSMC領域とSTG領域の融合チャネルによる多変量表現 (II)離散コードブック誘導マスクモデリングによる自己監督は,これらの性能に大きく寄与する。神経科学的な知見にインスパイアされた我々のアプローチは、特定の脳領域から多変量神経表現に乗じて、侵襲的な脳モデリングに適している。これは、BCIにおける有望な神経インスパイアされたAIアプローチである。

関連論文リスト

BaRISTA: Brain Scale Informed Spatiotemporal Representation of Human Intracranial Neural Activity [1.2744523252873352]
本稿では,ニューラルアクティビティの新しいテンポラルトランスフォーマーモデルとそれに対応する自己教師付き潜在再構成タスクを提案する。トークン符号化とマスク再構成の両方の空間スケールの調整は、下流の復号化に大きな影響を及ぼすことを示す。本手法は,正確なチャネルレベルのニューラル再構成を維持しつつ,領域レベルのトークン符号化を可能にする。
論文参考訳（メタデータ） (2025-12-13T02:19:33Z)
Decoding non-invasive brain activity with novel deep-learning approaches [0.10152838128195464]
この論文は、脳波(EEG)や脳磁図(MEG)のような非侵襲的な電気生理学的脳信号の世界に展開する。本研究の目的は、視覚刺激を知覚した時に脳に何が起こるか、あるいは隠れたスピーチ(インナースピーチ)に従事し、そのような刺激の復号性能を高めることである。
論文参考訳（メタデータ） (2025-10-13T20:50:20Z)
Probing Multimodal Fusion in the Brain: The Dominance of Audiovisual Streams in Naturalistic Encoding [1.2233362977312945]
我々は,最先端視覚 (X-CLIP) と聴覚 (Whisper) 特徴抽出器を用いた脳符号化モデルを開発した。分布内(ID)データと分布外(OOD)データの両方を厳格に評価する。
論文参考訳（メタデータ） (2025-07-25T08:12:26Z)
CSBrain: A Cross-scale Spatiotemporal Brain Foundation Model for EEG Decoding [57.90382885533593]
脳波信号の一般化のためのクロススケール時空間脳基盤モデルを提案する。 CSBrainはタスク固有のベースラインと基盤モデルのベースラインを一貫して上回ります。これらの結果は、CSBrainを将来の脳-AI研究の強力なバックボーンとして、重要な帰納バイアスとして、クロススケールモデリングを確立している。
論文参考訳（メタデータ） (2025-06-29T03:29:34Z)
CodeBrain: Towards Decoupled Interpretability and Multi-Scale Architecture for EEG Foundation Model [52.466542039411515]
EEGファウンデーションモデル(EFM)は、タスク固有のモデルのスケーラビリティ問題に対処するために登場した。このギャップを埋めるために設計された2段階のEMFであるCodeBrainを紹介します。第1段階では、異種時間・周波数の脳波信号を離散トークンに分解するTFDual-Tokenizerを導入する。第2段階では、構造化されたグローバル畳み込みとスライディングウインドウの注意を結合したマルチスケールEEGSSMアーキテクチャを提案する。
論文参考訳（メタデータ） (2025-06-10T17:20:39Z)
BrainStratify: Coarse-to-Fine Disentanglement of Intracranial Neural Dynamics [8.36470471250669]
ニューラルアクティビティから直接音声をデコードすることは、脳-コンピュータインターフェース(BCI)研究における中心的な目標である。近年、脳内野電位記録(SEEG)やECoG(ElectroCorticoGraphy)など、頭蓋内野電位記録(intracranial field potential recordings)の利用により、エキサイティングな進歩がなされている。 i)タスク関連神経信号はsEEG電極に分散し、(ii)タスク関連神経信号をsEEGとECoの両方で絡み合うことが多い。
論文参考訳（メタデータ） (2025-05-26T19:36:39Z)
BrainOmni: A Brain Foundation Model for Unified EEG and MEG Signals [50.76802709706976]
異種脳波とMEG記録を対象とする脳基礎モデルBrain Omniを提案する。多様なデータソースを統一するために、脳の活動を離散表現に定量化する最初のトークンであるBrainTokenizerを紹介します。 EEGの合計1,997時間、MEGデータの656時間は、事前トレーニングのために公開されているソースからキュレーションされ、標準化されている。
論文参考訳（メタデータ） (2025-05-18T14:07:14Z)
sEEG-based Encoding for Sentence Retrieval: A Contrastive Learning Approach to Brain-Language Alignment [8.466223794246261]
本稿では,凍結したCLIPモデルの文埋め込み空間に単射ステレオ脳波信号(sEEG)を投影するコントラスト学習フレームワークであるSSENSEを提案する。本手法は,自然主義映画視聴データセットから,時系列のsEEGと音声の書き起こしについて評価する。
論文参考訳（メタデータ） (2025-04-20T03:01:42Z)
BrainWavLM: Fine-tuning Speech Representations with Brain Responses to Language [43.53912137735093]
音声符号化モデルは、人間の脳が音声言語刺激にどのように反応するかを予測するために聴覚表現を使用する。本研究では、ローランク適応(LoRA)を用いて、脳のエンコーディング目的に基づいて、WavLMベースのエンコーディングモデルをエンド・ツー・エンドに微調整する。また,全大脳皮質の微調整により,LoRAを使わずより高い安定性で平均符号化性能が向上することを示した。
論文参考訳（メタデータ） (2025-02-13T00:37:27Z)
Interpretable Spatio-Temporal Embedding for Brain Structural-Effective Network with Ordinary Differential Equation [56.34634121544929]
本研究では,まず動的因果モデルを用いて脳効果ネットワークを構築する。次に、STE-ODE(Spatio-Temporal Embedding ODE)と呼ばれる解釈可能なグラフ学習フレームワークを導入する。このフレームワークは、構造的および効果的なネットワーク間の動的相互作用を捉えることを目的とした、特異的に設計されたノード埋め込み層を含んでいる。
論文参考訳（メタデータ） (2024-05-21T20:37:07Z)
Language Generation from Brain Recordings [68.97414452707103]
本稿では,大言語モデルと意味脳デコーダの容量を利用した生成言語BCIを提案する。提案モデルでは,視覚的・聴覚的言語刺激のセマンティック内容に整合したコヒーレントな言語系列を生成することができる。本研究は,直接言語生成におけるBCIの活用の可能性と可能性を示すものである。
論文参考訳（メタデータ） (2023-11-16T13:37:21Z)
Brain-Driven Representation Learning Based on Diffusion Model [25.375490061512]
本研究では,拡散確率モデル(DDPM)について検討した。条件付きオートエンコーダとDDPMを併用することで、我々の新しいアプローチは従来の機械学習アルゴリズムよりもかなり優れています。本研究は,音声関連脳波信号解析のための高度な計算手法として,DDPMの可能性を強調した。
論文参考訳（メタデータ） (2023-11-14T05:59:58Z)
Seeing Beyond the Brain: Conditional Diffusion Model with Sparse Masked Modeling for Vision Decoding [0.0]
MinD-Vis:Double-Conditioned Latent Diffusion Model for Human Vision Decodingを提案する。我々はMinD-Visが、非常に少ないペアアノテーションを用いて、脳の記録から意味的に一致する詳細を再現できることを示す。
論文参考訳（メタデータ） (2022-11-13T17:04:05Z)
Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文参考訳（メタデータ） (2022-08-25T10:01:43Z)
Self-supervised models of audio effectively explain human cortical responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文参考訳（メタデータ） (2022-05-27T22:04:02Z)
Deep Representations for Time-varying Brain Datasets [4.129225533930966]
本稿では、領域マップされたfMRIシーケンスと構造接続性の両方を入力として組み込んだ効率的なグラフニューラルネットワークモデルを構築する。サンプルレベルの適応的隣接行列を学習することで、潜伏する脳のダイナミクスのよい表現を見つけ出す。これらのモジュールは容易に適応でき、神経科学領域以外の用途にも有用である可能性がある。
論文参考訳（メタデータ） (2022-05-23T21:57:31Z)
Open Vocabulary Electroencephalography-To-Text Decoding and Zero-shot Sentiment Classification [78.120927891455]
最先端のブレイン・トゥ・テキストシステムは、ニューラルネットワークを使用して脳信号から直接言語を復号することに成功した。本稿では,自然読解課題における語彙的脳波(EEG)-テキスト列列列復号化とゼロショット文感性分類に問題を拡張する。脳波-テキストデコーディングで40.1%のBLEU-1スコア、ゼロショット脳波に基づく3次感情分類で55.6%のF1スコアを達成し、教師付きベースラインを著しく上回る結果となった。
論文参考訳（メタデータ） (2021-12-05T21:57:22Z)
Continuous Emotion Recognition with Spatiotemporal Convolutional Neural Networks [82.54695985117783]
In-theld でキャプチャした長いビデオシーケンスを用いて,持続的な感情認識のための最先端のディープラーニングアーキテクチャの適合性を検討する。我々は,2D-CNNと長期記憶ユニットを組み合わせた畳み込みリカレントニューラルネットワークと,2D-CNNモデルの微調整時の重みを膨らませて構築した膨らませた3D-CNNモデルを開発した。
論文参考訳（メタデータ） (2020-11-18T13:42:05Z)
A Multi-Task Deep Learning Framework to Localize the Eloquent Cortex in Brain Tumor Patients Using Dynamic Functional Connectivity [7.04584289867204]
脳腫瘍患者の大脳皮質の言語と運動領域を同時に局在させるために動的機能接続を用いた新しいディープラーニングフレームワークを提案する。本モデルは,従来の深層学習手法よりも高い局所化精度を達成し,左半球側方化症例で訓練した場合でも,両言語領域を識別できる。
論文参考訳（メタデータ） (2020-11-17T18:18:09Z)
Correlation based Multi-phasal models for improved imagined speech EEG recognition [22.196642357767338]
本研究の目的は,特定の音声単位に対応する音声の動きを,話し,想像,実行しながら記録された多相脳波データに含まれる並列情報から利益を得ることである。ニューラルネットワークを用いた二相共通表現学習モジュールは、解析フェーズと支援フェーズ間の相関をモデル化する。提案手法は復号化時の多相データの非可利用性をさらに扱う。
論文参考訳（メタデータ） (2020-11-04T09:39:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。