Fugu-MT 論文翻訳(概要): Du-IN: Discrete units-guided mask modeling for decoding speech from Intracranial Neural signals

論文の概要: Du-IN: Discrete units-guided mask modeling for decoding speech from Intracranial Neural signals

arxiv url: http://arxiv.org/abs/2405.11459v2
Date: Mon, 21 Oct 2024 15:10:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:32.46667
Title: Du-IN: Discrete units-guided mask modeling for decoding speech from Intracranial Neural signals
Title（参考訳）: Du-IN:頭蓋内神経信号からの音声復号のための離散単位誘導マスクモデリング
Authors: Hui Zheng, Hai-Teng Wang, Wei-Bang Jiang, Zhong-Tao Chen, Li He, Pei-Yang Lin, Peng-Hu Wei, Guo-Guang Zhao, Yun-Zhe Liu,
Abstract要約: エレクトロコルチコグラフィー(ECoG)を用いた脳-コンピュータインタフェースは,医療応用における高性能音声復号化を約束している。離散コーデックス誘導マスクモデリングにより,領域レベルのトークンに基づくコンテキスト埋め込みを抽出するDu-INモデルを開発した。本モデルでは,61ワードの分類タスクにおいて,すべてのベースラインを越えながら最先端のパフォーマンスを実現する。
参考スコア（独自算出の注目度）: 5.283718601431859
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Invasive brain-computer interfaces with Electrocorticography (ECoG) have shown promise for high-performance speech decoding in medical applications, but less damaging methods like intracranial stereo-electroencephalography (sEEG) remain underexplored. With rapid advances in representation learning, leveraging abundant recordings to enhance speech decoding is increasingly attractive. However, popular methods often pre-train temporal models based on brain-level tokens, overlooking that brain activities in different regions are highly desynchronized during tasks. Alternatively, they pre-train spatial-temporal models based on channel-level tokens but fail to evaluate them on challenging tasks like speech decoding, which requires intricate processing in specific language-related areas. To address this issue, we collected a well-annotated Chinese word-reading sEEG dataset targeting language-related brain networks from 12 subjects. Using this benchmark, we developed the Du-IN model, which extracts contextual embeddings based on region-level tokens through discrete codex-guided mask modeling. Our model achieves state-of-the-art performance on the 61-word classification task, surpassing all baselines. Model comparisons and ablation studies reveal that our design choices, including (i) temporal modeling based on region-level tokens by utilizing 1D depthwise convolution to fuse channels in the lateral sensorimotor cortex (vSMC) and superior temporal gyrus (STG) and (ii) self-supervision through discrete codex-guided mask modeling, significantly contribute to this performance. Overall, our approach -- inspired by neuroscience findings and capitalizing on region-level representations from specific brain regions -- is suitable for invasive brain modeling and represents a promising neuro-inspired AI approach in brain-computer interfaces.
Abstract（参考訳）: エレクトロコルチコグラフィー(ECoG)を用いた脳-コンピュータインターフェースは、医療応用において高性能な音声復号化を約束しているが、頭蓋内立体脳波(sEEG)のような損傷の少ない手法はいまだ研究されていない。表現学習の急速な進歩により、音声復号性を高めるために豊富な録音を活用することがますます魅力的になっている。しかし、一般的な方法では、脳レベルのトークンに基づく時間モデルを事前訓練し、異なる領域の脳活動がタスク中に高度に同期化されていることを見越すことが多い。あるいは、チャネルレベルのトークンに基づく時空間モデルの事前訓練を行うが、特定の言語関連領域で複雑な処理を必要とする音声復号処理のような困難なタスクでは評価できない。この問題に対処するため,12名の被験者から,言語関連脳ネットワークを対象とした中国語単語読解データセット(sEEG)を収集した。このベンチマークを用いて、離散コーデックス誘導マスクモデリングにより、領域レベルのトークンに基づいてコンテキスト埋め込みを抽出するDu-INモデルを開発した。本モデルでは,61ワードの分類タスクにおいて,すべてのベースラインを越えながら最先端のパフォーマンスを実現する。モデル比較とアブレーション研究により、我々のデザイン選択が明らかになりました。一側方感覚運動野(vSMC)及び上側頭回旋(STG)におけるフーズチャネルへの1次元奥行き畳み込みを利用した地域レベルのトークンに基づく時間的モデリング (2)離散コーデックス誘導マスクモデリングによる自己監督は,この性能に大きく寄与する。全体として、我々のアプローチは、神経科学的な発見にインスパイアされ、特定の脳領域からの領域レベルの表現に資本を当てることによって、侵襲的な脳モデリングに適しており、脳とコンピュータのインターフェイスにおいて有望な神経にインスパイアされたAIアプローチを表している。

関連論文リスト

BaRISTA: Brain Scale Informed Spatiotemporal Representation of Human Intracranial Neural Activity [1.2744523252873352]
本稿では,ニューラルアクティビティの新しいテンポラルトランスフォーマーモデルとそれに対応する自己教師付き潜在再構成タスクを提案する。トークン符号化とマスク再構成の両方の空間スケールの調整は、下流の復号化に大きな影響を及ぼすことを示す。本手法は,正確なチャネルレベルのニューラル再構成を維持しつつ,領域レベルのトークン符号化を可能にする。
論文参考訳（メタデータ） (2025-12-13T02:19:33Z)
Decoding non-invasive brain activity with novel deep-learning approaches [0.10152838128195464]
この論文は、脳波(EEG)や脳磁図(MEG)のような非侵襲的な電気生理学的脳信号の世界に展開する。本研究の目的は、視覚刺激を知覚した時に脳に何が起こるか、あるいは隠れたスピーチ(インナースピーチ)に従事し、そのような刺激の復号性能を高めることである。
論文参考訳（メタデータ） (2025-10-13T20:50:20Z)
Probing Multimodal Fusion in the Brain: The Dominance of Audiovisual Streams in Naturalistic Encoding [1.2233362977312945]
我々は,最先端視覚 (X-CLIP) と聴覚 (Whisper) 特徴抽出器を用いた脳符号化モデルを開発した。分布内(ID)データと分布外(OOD)データの両方を厳格に評価する。
論文参考訳（メタデータ） (2025-07-25T08:12:26Z)
CSBrain: A Cross-scale Spatiotemporal Brain Foundation Model for EEG Decoding [57.90382885533593]
脳波信号の一般化のためのクロススケール時空間脳基盤モデルを提案する。 CSBrainはタスク固有のベースラインと基盤モデルのベースラインを一貫して上回ります。これらの結果は、CSBrainを将来の脳-AI研究の強力なバックボーンとして、重要な帰納バイアスとして、クロススケールモデリングを確立している。
論文参考訳（メタデータ） (2025-06-29T03:29:34Z)
CodeBrain: Towards Decoupled Interpretability and Multi-Scale Architecture for EEG Foundation Model [52.466542039411515]
EEGファウンデーションモデル(EFM)は、タスク固有のモデルのスケーラビリティ問題に対処するために登場した。このギャップを埋めるために設計された2段階のEMFであるCodeBrainを紹介します。第1段階では、異種時間・周波数の脳波信号を離散トークンに分解するTFDual-Tokenizerを導入する。第2段階では、構造化されたグローバル畳み込みとスライディングウインドウの注意を結合したマルチスケールEEGSSMアーキテクチャを提案する。
論文参考訳（メタデータ） (2025-06-10T17:20:39Z)
BrainStratify: Coarse-to-Fine Disentanglement of Intracranial Neural Dynamics [8.36470471250669]
ニューラルアクティビティから直接音声をデコードすることは、脳-コンピュータインターフェース(BCI)研究における中心的な目標である。近年、脳内野電位記録(SEEG)やECoG(ElectroCorticoGraphy)など、頭蓋内野電位記録(intracranial field potential recordings)の利用により、エキサイティングな進歩がなされている。 i)タスク関連神経信号はsEEG電極に分散し、(ii)タスク関連神経信号をsEEGとECoの両方で絡み合うことが多い。
論文参考訳（メタデータ） (2025-05-26T19:36:39Z)
BrainOmni: A Brain Foundation Model for Unified EEG and MEG Signals [50.76802709706976]
異種脳波とMEG記録を対象とする脳基礎モデルBrain Omniを提案する。多様なデータソースを統一するために、脳の活動を離散表現に定量化する最初のトークンであるBrainTokenizerを紹介します。 EEGの合計1,997時間、MEGデータの656時間は、事前トレーニングのために公開されているソースからキュレーションされ、標準化されている。
論文参考訳（メタデータ） (2025-05-18T14:07:14Z)
sEEG-based Encoding for Sentence Retrieval: A Contrastive Learning Approach to Brain-Language Alignment [8.466223794246261]
本稿では,凍結したCLIPモデルの文埋め込み空間に単射ステレオ脳波信号(sEEG)を投影するコントラスト学習フレームワークであるSSENSEを提案する。本手法は,自然主義映画視聴データセットから,時系列のsEEGと音声の書き起こしについて評価する。
論文参考訳（メタデータ） (2025-04-20T03:01:42Z)
BrainWavLM: Fine-tuning Speech Representations with Brain Responses to Language [43.53912137735093]
音声符号化モデルは、人間の脳が音声言語刺激にどのように反応するかを予測するために聴覚表現を使用する。本研究では、ローランク適応(LoRA)を用いて、脳のエンコーディング目的に基づいて、WavLMベースのエンコーディングモデルをエンド・ツー・エンドに微調整する。また,全大脳皮質の微調整により,LoRAを使わずより高い安定性で平均符号化性能が向上することを示した。
論文参考訳（メタデータ） (2025-02-13T00:37:27Z)
Interpretable Spatio-Temporal Embedding for Brain Structural-Effective Network with Ordinary Differential Equation [56.34634121544929]
本研究では,まず動的因果モデルを用いて脳効果ネットワークを構築する。次に、STE-ODE(Spatio-Temporal Embedding ODE)と呼ばれる解釈可能なグラフ学習フレームワークを導入する。このフレームワークは、構造的および効果的なネットワーク間の動的相互作用を捉えることを目的とした、特異的に設計されたノード埋め込み層を含んでいる。
論文参考訳（メタデータ） (2024-05-21T20:37:07Z)
Language Generation from Brain Recordings [68.97414452707103]
本稿では,大言語モデルと意味脳デコーダの容量を利用した生成言語BCIを提案する。提案モデルでは,視覚的・聴覚的言語刺激のセマンティック内容に整合したコヒーレントな言語系列を生成することができる。本研究は,直接言語生成におけるBCIの活用の可能性と可能性を示すものである。
論文参考訳（メタデータ） (2023-11-16T13:37:21Z)
Brain-Driven Representation Learning Based on Diffusion Model [25.375490061512]
本研究では,拡散確率モデル(DDPM)について検討した。条件付きオートエンコーダとDDPMを併用することで、我々の新しいアプローチは従来の機械学習アルゴリズムよりもかなり優れています。本研究は,音声関連脳波信号解析のための高度な計算手法として,DDPMの可能性を強調した。
論文参考訳（メタデータ） (2023-11-14T05:59:58Z)
Seeing Beyond the Brain: Conditional Diffusion Model with Sparse Masked Modeling for Vision Decoding [0.0]
MinD-Vis:Double-Conditioned Latent Diffusion Model for Human Vision Decodingを提案する。我々はMinD-Visが、非常に少ないペアアノテーションを用いて、脳の記録から意味的に一致する詳細を再現できることを示す。
論文参考訳（メタデータ） (2022-11-13T17:04:05Z)
Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文参考訳（メタデータ） (2022-08-25T10:01:43Z)
Self-supervised models of audio effectively explain human cortical responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文参考訳（メタデータ） (2022-05-27T22:04:02Z)
Deep Representations for Time-varying Brain Datasets [4.129225533930966]
本稿では、領域マップされたfMRIシーケンスと構造接続性の両方を入力として組み込んだ効率的なグラフニューラルネットワークモデルを構築する。サンプルレベルの適応的隣接行列を学習することで、潜伏する脳のダイナミクスのよい表現を見つけ出す。これらのモジュールは容易に適応でき、神経科学領域以外の用途にも有用である可能性がある。
論文参考訳（メタデータ） (2022-05-23T21:57:31Z)
Open Vocabulary Electroencephalography-To-Text Decoding and Zero-shot Sentiment Classification [78.120927891455]
最先端のブレイン・トゥ・テキストシステムは、ニューラルネットワークを使用して脳信号から直接言語を復号することに成功した。本稿では,自然読解課題における語彙的脳波(EEG)-テキスト列列列復号化とゼロショット文感性分類に問題を拡張する。脳波-テキストデコーディングで40.1%のBLEU-1スコア、ゼロショット脳波に基づく3次感情分類で55.6%のF1スコアを達成し、教師付きベースラインを著しく上回る結果となった。
論文参考訳（メタデータ） (2021-12-05T21:57:22Z)
Continuous Emotion Recognition with Spatiotemporal Convolutional Neural Networks [82.54695985117783]
In-theld でキャプチャした長いビデオシーケンスを用いて,持続的な感情認識のための最先端のディープラーニングアーキテクチャの適合性を検討する。我々は,2D-CNNと長期記憶ユニットを組み合わせた畳み込みリカレントニューラルネットワークと,2D-CNNモデルの微調整時の重みを膨らませて構築した膨らませた3D-CNNモデルを開発した。
論文参考訳（メタデータ） (2020-11-18T13:42:05Z)
A Multi-Task Deep Learning Framework to Localize the Eloquent Cortex in Brain Tumor Patients Using Dynamic Functional Connectivity [7.04584289867204]
脳腫瘍患者の大脳皮質の言語と運動領域を同時に局在させるために動的機能接続を用いた新しいディープラーニングフレームワークを提案する。本モデルは,従来の深層学習手法よりも高い局所化精度を達成し,左半球側方化症例で訓練した場合でも,両言語領域を識別できる。
論文参考訳（メタデータ） (2020-11-17T18:18:09Z)
Correlation based Multi-phasal models for improved imagined speech EEG recognition [22.196642357767338]
本研究の目的は,特定の音声単位に対応する音声の動きを,話し,想像,実行しながら記録された多相脳波データに含まれる並列情報から利益を得ることである。ニューラルネットワークを用いた二相共通表現学習モジュールは、解析フェーズと支援フェーズ間の相関をモデル化する。提案手法は復号化時の多相データの非可利用性をさらに扱う。
論文参考訳（メタデータ） (2020-11-04T09:39:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。