論文の概要: Du-IN: Discrete units-guided mask modeling for decoding speech from Intracranial Neural signals
- arxiv url: http://arxiv.org/abs/2405.11459v2
- Date: Mon, 21 Oct 2024 15:10:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:11:29.212966
- Title: Du-IN: Discrete units-guided mask modeling for decoding speech from Intracranial Neural signals
- Title(参考訳): Du-IN:頭蓋内神経信号からの音声復号のための離散単位誘導マスクモデリング
- Authors: Hui Zheng, Hai-Teng Wang, Wei-Bang Jiang, Zhong-Tao Chen, Li He, Pei-Yang Lin, Peng-Hu Wei, Guo-Guang Zhao, Yun-Zhe Liu,
- Abstract要約: エレクトロコルチコグラフィー(ECoG)を用いた脳-コンピュータインタフェースは,医療応用における高性能音声復号化を約束している。
離散コーデックス誘導マスクモデリングにより,領域レベルのトークンに基づくコンテキスト埋め込みを抽出するDu-INモデルを開発した。
本モデルでは,61ワードの分類タスクにおいて,すべてのベースラインを越えながら最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 5.283718601431859
- License:
- Abstract: Invasive brain-computer interfaces with Electrocorticography (ECoG) have shown promise for high-performance speech decoding in medical applications, but less damaging methods like intracranial stereo-electroencephalography (sEEG) remain underexplored. With rapid advances in representation learning, leveraging abundant recordings to enhance speech decoding is increasingly attractive. However, popular methods often pre-train temporal models based on brain-level tokens, overlooking that brain activities in different regions are highly desynchronized during tasks. Alternatively, they pre-train spatial-temporal models based on channel-level tokens but fail to evaluate them on challenging tasks like speech decoding, which requires intricate processing in specific language-related areas. To address this issue, we collected a well-annotated Chinese word-reading sEEG dataset targeting language-related brain networks from 12 subjects. Using this benchmark, we developed the Du-IN model, which extracts contextual embeddings based on region-level tokens through discrete codex-guided mask modeling. Our model achieves state-of-the-art performance on the 61-word classification task, surpassing all baselines. Model comparisons and ablation studies reveal that our design choices, including (i) temporal modeling based on region-level tokens by utilizing 1D depthwise convolution to fuse channels in the lateral sensorimotor cortex (vSMC) and superior temporal gyrus (STG) and (ii) self-supervision through discrete codex-guided mask modeling, significantly contribute to this performance. Overall, our approach -- inspired by neuroscience findings and capitalizing on region-level representations from specific brain regions -- is suitable for invasive brain modeling and represents a promising neuro-inspired AI approach in brain-computer interfaces.
- Abstract(参考訳): エレクトロコルチコグラフィー(ECoG)を用いた脳-コンピュータインターフェースは、医療応用において高性能な音声復号化を約束しているが、頭蓋内立体脳波(sEEG)のような損傷の少ない手法はいまだ研究されていない。
表現学習の急速な進歩により、音声復号性を高めるために豊富な録音を活用することがますます魅力的になっている。
しかし、一般的な方法では、脳レベルのトークンに基づく時間モデルを事前訓練し、異なる領域の脳活動がタスク中に高度に同期化されていることを見越すことが多い。
あるいは、チャネルレベルのトークンに基づく時空間モデルの事前訓練を行うが、特定の言語関連領域で複雑な処理を必要とする音声復号処理のような困難なタスクでは評価できない。
この問題に対処するため,12名の被験者から,言語関連脳ネットワークを対象とした中国語単語読解データセット(sEEG)を収集した。
このベンチマークを用いて、離散コーデックス誘導マスクモデリングにより、領域レベルのトークンに基づいてコンテキスト埋め込みを抽出するDu-INモデルを開発した。
本モデルでは,61ワードの分類タスクにおいて,すべてのベースラインを越えながら最先端のパフォーマンスを実現する。
モデル比較とアブレーション研究により、我々のデザイン選択が明らかになりました。
一 側方感覚運動野(vSMC)及び上側頭回旋(STG)におけるフーズチャネルへの1次元奥行き畳み込みを利用した地域レベルのトークンに基づく時間的モデリング
(2)離散コーデックス誘導マスクモデリングによる自己監督は,この性能に大きく寄与する。
全体として、我々のアプローチは、神経科学的な発見にインスパイアされ、特定の脳領域からの領域レベルの表現に資本を当てることによって、侵襲的な脳モデリングに適しており、脳とコンピュータのインターフェイスにおいて有望な神経にインスパイアされたAIアプローチを表している。
関連論文リスト
- Brain-Like Language Processing via a Shallow Untrained Multihead Attention Network [16.317199232071232]
大規模言語モデル(LLM)は、人間の言語システムの効果的なモデルであることが示されている。
本研究では、未学習モデルの驚くほどのアライメントを駆動する重要なアーキテクチャコンポーネントについて検討する。
論文 参考訳(メタデータ) (2024-06-21T12:54:03Z) - BrainFounder: Towards Brain Foundation Models for Neuroimage Analysis [6.5388528484686885]
本研究は,医療基盤モデルの創出に向けた新しいアプローチを紹介する。
本稿では,視覚変換器を用いた2段階事前学習手法を提案する。
BrainFounderは、これまでの勝利ソリューションの成果を上回る、大幅なパフォーマンス向上を実演している。
論文 参考訳(メタデータ) (2024-06-14T19:49:45Z) - Interpretable Spatio-Temporal Embedding for Brain Structural-Effective Network with Ordinary Differential Equation [56.34634121544929]
本研究では,まず動的因果モデルを用いて脳効果ネットワークを構築する。
次に、STE-ODE(Spatio-Temporal Embedding ODE)と呼ばれる解釈可能なグラフ学習フレームワークを導入する。
このフレームワークは、構造的および効果的なネットワーク間の動的相互作用を捉えることを目的とした、特異的に設計されたノード埋め込み層を含んでいる。
論文 参考訳(メタデータ) (2024-05-21T20:37:07Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - MindBridge: A Cross-Subject Brain Decoding Framework [60.58552697067837]
脳の復号化は、獲得した脳信号から刺激を再構築することを目的としている。
現在、脳の復号化はモデルごとのオブジェクトごとのパラダイムに限られている。
我々は,1つのモデルのみを用いることで,オブジェクト間脳デコーディングを実現するMindBridgeを提案する。
論文 参考訳(メタデータ) (2024-04-11T15:46:42Z) - Patched Diffusion Models for Unsupervised Anomaly Detection in Brain MRI [55.78588835407174]
本稿では,正常脳解剖のパッチベース推定法として拡散モデルの生成タスクを再構築する手法を提案する。
腫瘍と多発性硬化症について検討し,既存のベースラインと比較して25.1%の改善がみられた。
論文 参考訳(メタデータ) (2023-03-07T09:40:22Z) - Multiclass Semantic Segmentation to Identify Anatomical Sub-Regions of
Brain and Measure Neuronal Health in Parkinson's Disease [2.288652563296735]
現在、脳の解剖下領域を分析して2次元の組織像を分析する機械学習モデルは利用できない。
本研究では,Nissl/HaematoxylinおよびTyrosine hydroxylase酵素(TH,ドーパミン作動性ニューロンの生存率の指標)で染色した約1000個のアノテート2次元脳画像を用いて,ベストフィットモデルを訓練した。
このモデルは、すべての画像において2つのサブリージョンコンパクト(SNCD)とレチキュラタ(SNr)を効果的に検出できる。
論文 参考訳(メタデータ) (2023-01-07T19:35:28Z) - Seeing Beyond the Brain: Conditional Diffusion Model with Sparse Masked
Modeling for Vision Decoding [0.0]
MinD-Vis:Double-Conditioned Latent Diffusion Model for Human Vision Decodingを提案する。
我々はMinD-Visが、非常に少ないペアアノテーションを用いて、脳の記録から意味的に一致する詳細を再現できることを示す。
論文 参考訳(メタデータ) (2022-11-13T17:04:05Z) - Multimodal foundation models are better simulators of the human brain [65.10501322822881]
1500万の画像テキストペアを事前訓練した,新たに設計されたマルチモーダル基礎モデルを提案する。
視覚的エンコーダも言語的エンコーダもマルチモーダルで訓練され,脳に近いことが判明した。
論文 参考訳(メタデータ) (2022-08-17T12:36:26Z) - Convolutional Neural Networks for cytoarchitectonic brain mapping at
large scale [0.33727511459109777]
今回我々は,ヒト後脳の多数の細胞体染色組織における細胞構造学的領域をマッピングするための新しいワークフローを提案する。
これはDeep Convolutional Neural Network (CNN)に基づいており、アノテーション付きの一対のセクションイメージに基づいてトレーニングされており、その間に多数の注釈のないセクションがある。
新しいワークフローは、セクションの3D再構成を必要とせず、組織学的アーティファクトに対して堅牢である。
論文 参考訳(メタデータ) (2020-11-25T16:25:13Z) - Modeling Shared Responses in Neuroimaging Studies through MultiView ICA [94.31804763196116]
被験者の大規模なコホートを含むグループ研究は、脳機能組織に関する一般的な結論を引き出す上で重要である。
グループ研究のための新しい多視点独立成分分析モデルを提案し、各被験者のデータを共有独立音源と雑音の線形結合としてモデル化する。
まず、fMRIデータを用いて、被験者間の共通音源の同定における感度の向上を示す。
論文 参考訳(メタデータ) (2020-06-11T17:29:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。