論文の概要: Data Contamination Issues in Brain-to-Text Decoding
- arxiv url: http://arxiv.org/abs/2312.10987v2
- Date: Tue, 26 Dec 2023 13:29:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 20:46:54.199737
- Title: Data Contamination Issues in Brain-to-Text Decoding
- Title(参考訳): 脳とテキストのデコードにおけるデータ汚染問題
- Authors: Congchi Yin, Qian Yu, Zhiwei Fang, Jie He, Changping Peng, Zhangang
Lin, Jingping Shao, Piji Li
- Abstract要約: 非侵襲的な認知信号を自然言語にデコードすることは、長い間、実用的な脳-コンピュータインターフェース(BCI)の構築の目標であった。
最近の大きなマイルストーンは、機能的磁気共鳴イメージング(fMRI)や脳波(EEG)といった認知信号を、オープンな語彙設定の下でテキストに復号することに成功している。
認知信号復号タスクにおいて、トレーニング、検証、テストのためのデータセットを分割する方法はまだ議論の余地がある。
- 参考スコア(独自算出の注目度): 37.863706557699146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decoding non-invasive cognitive signals to natural language has long been the
goal of building practical brain-computer interfaces (BCIs). Recent major
milestones have successfully decoded cognitive signals like functional Magnetic
Resonance Imaging (fMRI) and electroencephalogram (EEG) into text under open
vocabulary setting. However, how to split the datasets for training,
validating, and testing in cognitive signal decoding task still remains
controversial. In this paper, we conduct systematic analysis on current dataset
splitting methods and find the existence of data contamination largely
exaggerates model performance. Specifically, first we find the leakage of test
subjects' cognitive signals corrupts the training of a robust encoder. Second,
we prove the leakage of text stimuli causes the auto-regressive decoder to
memorize information in test set. The decoder generates highly accurate text
not because it truly understands cognitive signals. To eliminate the influence
of data contamination and fairly evaluate different models' generalization
ability, we propose a new splitting method for different types of cognitive
datasets (e.g. fMRI, EEG). We also test the performance of SOTA Brain-to-Text
decoding models under the proposed dataset splitting paradigm as baselines for
further research.
- Abstract(参考訳): 非侵襲的な認知信号を自然言語にデコードすることは、長年、実用的な脳-コンピュータインターフェース(BCI)の構築の目標であった。
最近の大きなマイルストーンは、機能的磁気共鳴イメージング(fMRI)や脳波(EEG)といった認知信号をオープンな語彙設定下でテキストに復号することに成功している。
しかし、認知信号復号タスクのトレーニング、検証、テストのためにデータセットを分割する方法はまだ議論の余地がある。
本稿では,現在のデータセット分割手法を体系的に分析し,データ汚染の存在がモデル性能を大幅に上回ることを示す。
具体的には、まず被験者の認知信号の漏洩が、堅牢なエンコーダの訓練を損なうことを明らかにする。
第2に,テキスト刺激の漏洩により,自動回帰デコーダがテストセットに情報を記憶することを証明する。
デコーダは、認知信号を真に理解するためではなく、高精度なテキストを生成する。
データ汚染の影響をなくし、異なるモデルの一般化能力を十分に評価するために、異なるタイプの認知データセット(例えば、fmri、脳波)に対する新しい分割法を提案する。
また,提案したデータセット分割パラダイムに基づくSOTA脳テキスト復号モデルの性能を,さらなる研究のベースラインとして検証した。
関連論文リスト
- Deep Learning for real-time neural decoding of grasp [0.0]
本稿では,ニューラルネットワークの復号化のためのDeep Learningに基づく手法を提案する。
提案手法の主な目的は、これまでの神経科学知識に頼ることなく、最先端の復号精度を改善することである。
論文 参考訳(メタデータ) (2023-11-02T08:26:29Z) - A Discrepancy Aware Framework for Robust Anomaly Detection [51.710249807397695]
本稿では,DAF(Disdisrepancy Aware Framework)を提案する。
本手法は,デコーダの欠陥同定に外見に依存しないキューを利用して,その合成外観への依存を緩和する。
単純な合成戦略の下では,既存の手法を大きなマージンで上回り,また,最先端のローカライゼーション性能も達成している。
論文 参考訳(メタデータ) (2023-10-11T15:21:40Z) - UniCoRN: Unified Cognitive Signal ReconstructioN bridging cognitive
signals and human language [23.623579364849526]
本稿では,fMRI時系列と人間の言語を橋渡しする最初のオープン語彙課題であるfMRI2textを提案する。
我々は、脳復号のためのベースラインソリューションUniCoRN: Unified Cognitive Signal ReconstructioNを提案する。
このモデルでは、fMRI2text上で34.77%のBLEUスコアが得られ、EEGto-textデコーディングに一般化すると37.04%のBLEUが得られる。
論文 参考訳(メタデータ) (2023-07-06T05:26:49Z) - Neurosymbolic hybrid approach to driver collision warning [64.02492460600905]
自律運転システムには2つの主要なアルゴリズムアプローチがある。
ディープラーニングだけでは、多くの分野で最先端の結果が得られています。
しかし、ディープラーニングモデルが機能しない場合、デバッグが非常に難しい場合もあります。
論文 参考訳(メタデータ) (2022-03-28T20:29:50Z) - Repairing Brain-Computer Interfaces with Fault-Based Data Acquisition [0.9697877942346906]
脳-コンピュータインタフェース(BCI)は、脳から記録された神経信号をデコードし、脳をコード化された神経信号で刺激する。
信頼性と堅牢性に関する課題のため、BCIはまだ長期、日々の使用には採用されていない。
本稿では,BCIの欠陥を特徴付け,検出し,位置決めするための新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-20T23:49:50Z) - Open Vocabulary Electroencephalography-To-Text Decoding and Zero-shot
Sentiment Classification [78.120927891455]
最先端のブレイン・トゥ・テキストシステムは、ニューラルネットワークを使用して脳信号から直接言語を復号することに成功した。
本稿では,自然読解課題における語彙的脳波(EEG)-テキスト列列列復号化とゼロショット文感性分類に問題を拡張する。
脳波-テキストデコーディングで40.1%のBLEU-1スコア、ゼロショット脳波に基づく3次感情分類で55.6%のF1スコアを達成し、教師付きベースラインを著しく上回る結果となった。
論文 参考訳(メタデータ) (2021-12-05T21:57:22Z) - CogAlign: Learning to Align Textual Neural Representations to Cognitive
Language Processing Signals [60.921888445317705]
自然言語処理モデルに認知言語処理信号を統合するためのCogAlignアプローチを提案する。
我々は、CogAlignが、パブリックデータセット上の最先端モデルよりも、複数の認知機能で大幅な改善を実現していることを示す。
論文 参考訳(メタデータ) (2021-06-10T07:10:25Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z) - Classification and Recognition of Encrypted EEG Data Neural Network [10.171935814743678]
ニューラルネットワークに基づく暗号化脳波データの分類と認識手法を提案する。
EEGデータを暗号化するためにPaillier暗号化アルゴリズムを採用し、浮動小数点演算の問題を解決する。
我々の提案は、他のソリューションと比較して十分な精度、効率、実現可能性を持っている。
論文 参考訳(メタデータ) (2020-06-15T04:21:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。