論文の概要: Towards Homogeneous Lexical Tone Decoding from Heterogeneous Intracranial Recordings
- arxiv url: http://arxiv.org/abs/2410.12866v1
- Date: Sun, 13 Oct 2024 18:09:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:22:19.286064
- Title: Towards Homogeneous Lexical Tone Decoding from Heterogeneous Intracranial Recordings
- Title(参考訳): 異種頭蓋内記録からの同種レキシカルトーンデコーディングに向けて
- Authors: Di Wu, Siyuan Li, Chen Feng, Lu Cao, Yue Zhang, Jie Yang, Mohamad Sawan,
- Abstract要約: 神経表現のためのホモジニティ・ヘテロジニティ・ディサンタングルド・ラーニング(H2DiLR)は、複数の被験者の頭蓋内記録から同質性と異質性の両方を歪め、学習する新しいフレームワークである。
広汎な実験により、H2DiLRは統一復号法として従来の異種復号法よりも大幅に優れていることが示された。
- 参考スコア(独自算出の注目度): 35.133994737003796
- License:
- Abstract: Recent advancements in brain-computer interfaces (BCIs) have enabled the decoding of lexical tones from intracranial recordings, offering the potential to restore the communication abilities of speech-impaired tonal language speakers. However, data heterogeneity induced by both physiological and instrumental factors poses a significant challenge for unified invasive brain tone decoding. Traditional subject-specific models, which operate under a heterogeneous decoding paradigm, fail to capture generalized neural representations and cannot effectively leverage data across subjects. To address these limitations, we introduce Homogeneity-Heterogeneity Disentangled Learning for neural Representations (H2DiLR), a novel framework that disentangles and learns both the homogeneity and heterogeneity from intracranial recordings across multiple subjects. To evaluate H2DiLR, we collected stereoelectroencephalography (sEEG) data from multiple participants reading Mandarin materials comprising 407 syllables, representing nearly all Mandarin characters. Extensive experiments demonstrate that H2DiLR, as a unified decoding paradigm, significantly outperforms the conventional heterogeneous decoding approach. Furthermore, we empirically confirm that H2DiLR effectively captures both homogeneity and heterogeneity during neural representation learning.
- Abstract(参考訳): 脳-コンピュータインタフェース(BCI)の最近の進歩により、頭蓋内記録からの語彙音の復号が可能となり、言語話者のコミュニケーション能力を回復する可能性がある。
しかし、生理的要因と機器的要因の両方によって引き起こされるデータ不均一性は、統合された侵襲的な脳のトーンデコーディングに重大な課題をもたらす。
異種復号パラダイムの下で動作する従来の主題固有モデルは、一般化された神経表現を捉えることができず、被写体間のデータを効果的に活用できない。
これらの制約に対処するために, 神経表現のためのホモジニティ・ヘテロジニティ・ディスタングルドラーニング(H2DiLR)を導入する。
H2DiLRを評価するために,407音節からなるマンダリン資料を読み取る複数の被験者から,ほぼすべてのマンダリン文字を表わすステレオエレクトロエレクトロエノグラフィー(sEEG)データを収集した。
広汎な実験により、H2DiLRは統一復号法として従来の異種復号法よりも大幅に優れていることが示された。
さらに,H2DiLRが神経表現学習における均一性と不均一性の両方を効果的に捉えることを実証的に確認した。
関連論文リスト
- HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Surrogate Gradient Spiking Neural Networks as Encoders for Large
Vocabulary Continuous Speech Recognition [91.39701446828144]
スパイクニューラルネットワークは, 代理勾配法を用いて, 通常のリカレントニューラルネットワークのように訓練可能であることを示す。
彼らは音声コマンド認識タスクについて有望な結果を示した。
繰り返し発生する非スパイキングとは対照的に、ゲートを使わずに爆発する勾配問題に対して堅牢性を示す。
論文 参考訳(メタデータ) (2022-12-01T12:36:26Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - Synthesizing Speech from Intracranial Depth Electrodes using an
Encoder-Decoder Framework [1.623136488969658]
音声神経補綴は、変形性関節症や変形性関節症患者のコミュニケーションを可能にする可能性がある。
近年の進歩は、皮質表面に置かれた電磁気格子から高品質なテキストデコーディングと音声合成を実証している。
論文 参考訳(メタデータ) (2021-11-02T09:43:21Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z) - Correlation based Multi-phasal models for improved imagined speech EEG
recognition [22.196642357767338]
本研究の目的は,特定の音声単位に対応する音声の動きを,話し,想像,実行しながら記録された多相脳波データに含まれる並列情報から利益を得ることである。
ニューラルネットワークを用いた二相共通表現学習モジュールは、解析フェーズと支援フェーズ間の相関をモデル化する。
提案手法は復号化時の多相データの非可利用性をさらに扱う。
論文 参考訳(メタデータ) (2020-11-04T09:39:53Z) - Diffusion-Weighted Magnetic Resonance Brain Images Generation with
Generative Adversarial Networks and Variational Autoencoders: A Comparison
Study [55.78588835407174]
本研究では,高画質,多彩で現実的な拡散重み付き磁気共鳴画像が深部生成モデルを用いて合成可能であることを示す。
Introspective Variational AutoencoderとStyle-Based GANの2つのネットワークを医療分野におけるデータ拡張の資格として提示する。
論文 参考訳(メタデータ) (2020-06-24T18:00:01Z) - A Tale of Two Perplexities: Sensitivity of Neural Language Models to
Lexical Retrieval Deficits in Dementia of the Alzheimer's Type [10.665308703417665]
近年,認知症患者が発声した音声サンプルと健常者から発声した音声サンプルを区別するための計算手法の使用に対する関心が高まっている。
2つのニューラルネットワークモデル(LM)からのパープレキシティ推定の違いは、最先端の性能をもたらすことが示されている。
我々は, ニューラルLMのパープレキシティは, 語彙周波数と強く, 差分関係が強く, 補間制御と認知症から生じる混合モデルは, 転写テキストでのみ訓練されたモデルに対する現在の最先端のモデルにより改善されることを見出した。
論文 参考訳(メタデータ) (2020-05-07T16:22:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。