論文の概要: Data Contamination Issues in Brain-to-Text Decoding
- arxiv url: http://arxiv.org/abs/2312.10987v2
- Date: Tue, 26 Dec 2023 13:29:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 20:46:54.199737
- Title: Data Contamination Issues in Brain-to-Text Decoding
- Title(参考訳): 脳とテキストのデコードにおけるデータ汚染問題
- Authors: Congchi Yin, Qian Yu, Zhiwei Fang, Jie He, Changping Peng, Zhangang
Lin, Jingping Shao, Piji Li
- Abstract要約: 非侵襲的な認知信号を自然言語にデコードすることは、長い間、実用的な脳-コンピュータインターフェース(BCI)の構築の目標であった。
最近の大きなマイルストーンは、機能的磁気共鳴イメージング(fMRI)や脳波(EEG)といった認知信号を、オープンな語彙設定の下でテキストに復号することに成功している。
認知信号復号タスクにおいて、トレーニング、検証、テストのためのデータセットを分割する方法はまだ議論の余地がある。
- 参考スコア(独自算出の注目度): 37.863706557699146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decoding non-invasive cognitive signals to natural language has long been the
goal of building practical brain-computer interfaces (BCIs). Recent major
milestones have successfully decoded cognitive signals like functional Magnetic
Resonance Imaging (fMRI) and electroencephalogram (EEG) into text under open
vocabulary setting. However, how to split the datasets for training,
validating, and testing in cognitive signal decoding task still remains
controversial. In this paper, we conduct systematic analysis on current dataset
splitting methods and find the existence of data contamination largely
exaggerates model performance. Specifically, first we find the leakage of test
subjects' cognitive signals corrupts the training of a robust encoder. Second,
we prove the leakage of text stimuli causes the auto-regressive decoder to
memorize information in test set. The decoder generates highly accurate text
not because it truly understands cognitive signals. To eliminate the influence
of data contamination and fairly evaluate different models' generalization
ability, we propose a new splitting method for different types of cognitive
datasets (e.g. fMRI, EEG). We also test the performance of SOTA Brain-to-Text
decoding models under the proposed dataset splitting paradigm as baselines for
further research.
- Abstract(参考訳): 非侵襲的な認知信号を自然言語にデコードすることは、長年、実用的な脳-コンピュータインターフェース(BCI)の構築の目標であった。
最近の大きなマイルストーンは、機能的磁気共鳴イメージング(fMRI)や脳波(EEG)といった認知信号をオープンな語彙設定下でテキストに復号することに成功している。
しかし、認知信号復号タスクのトレーニング、検証、テストのためにデータセットを分割する方法はまだ議論の余地がある。
本稿では,現在のデータセット分割手法を体系的に分析し,データ汚染の存在がモデル性能を大幅に上回ることを示す。
具体的には、まず被験者の認知信号の漏洩が、堅牢なエンコーダの訓練を損なうことを明らかにする。
第2に,テキスト刺激の漏洩により,自動回帰デコーダがテストセットに情報を記憶することを証明する。
デコーダは、認知信号を真に理解するためではなく、高精度なテキストを生成する。
データ汚染の影響をなくし、異なるモデルの一般化能力を十分に評価するために、異なるタイプの認知データセット(例えば、fmri、脳波)に対する新しい分割法を提案する。
また,提案したデータセット分割パラダイムに基づくSOTA脳テキスト復号モデルの性能を,さらなる研究のベースラインとして検証した。
関連論文リスト
- Across-subject ensemble-learning alleviates the need for large samples for fMRI decoding [37.41192511246204]
オブジェクト内デコーディングはオブジェクト間の対応の問題を回避するが、正確な予測を行うにはサンプルサイズが大きい。
本稿では、他の被験者のデータに基づいて訓練された分類器を組み合わせて、新しい被験者の認知状態を復号化するためのアンサンブルアプローチについて検討する。
特にオブジェクトごとのデータに制限のあるデータセットでは,従来の復号法よりも最大20%の精度で性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-09T08:22:44Z) - Few-shot learning for COVID-19 Chest X-Ray Classification with
Imbalanced Data: An Inter vs. Intra Domain Study [49.5374512525016]
医療画像データセットは、コンピュータ支援診断、治療計画、医学研究に使用される訓練モデルに不可欠である。
データ分散のばらつき、データの不足、ジェネリックイメージから事前トレーニングされたモデルを使用する場合の転送学習の問題などである。
本稿では,データ不足と分散不均衡の影響を軽減するために,一連の手法を統合したシームズニューラルネットワークに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-01-18T16:59:27Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Source-Free Collaborative Domain Adaptation via Multi-Perspective
Feature Enrichment for Functional MRI Analysis [55.03872260158717]
安静時MRI機能(rs-fMRI)は、神経疾患の分析を助けるために多地点で研究されている。
ソース領域とターゲット領域の間のfMRIの不均一性を低減するための多くの手法が提案されている。
しかし、マルチサイト研究における懸念やデータストレージの負担のため、ソースデータの取得は困難である。
我々は、fMRI解析のためのソースフリー協調ドメイン適応フレームワークを設計し、事前訓練されたソースモデルとラベルなしターゲットデータのみにアクセスできるようにする。
論文 参考訳(メタデータ) (2023-08-24T01:30:18Z) - Machine Learning Based Missing Values Imputation in Categorical Datasets [2.5611256859404983]
この研究では、分類データセットのギャップを埋めるための機械学習アルゴリズムの使用について検討した。
Error Correction Output Codesフレームワークを使用して構築されたアンサンブルモデルに重点が置かれた。
大量のラベル付きデータの要求を含む、これらの奨励的な結果にもかかわらず、データ計算の欠如に対する深い学習には障害がある。
論文 参考訳(メタデータ) (2023-06-10T03:29:48Z) - FAST-AID Brain: Fast and Accurate Segmentation Tool using Artificial
Intelligence Developed for Brain [0.8376091455761259]
ヒト脳の132領域への高速かつ正確なセグメンテーションのための新しい深層学習法を提案する。
提案モデルは、効率的なU-Netライクなネットワークと、異なるビューと階層関係の交差点の利点を利用する。
提案手法は,画像の事前処理や性能低下を伴わずに頭蓋骨や他の人工物を含む脳MRIデータに適用することができる。
論文 参考訳(メタデータ) (2022-08-30T16:06:07Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z) - Fader Networks for domain adaptation on fMRI: ABIDE-II study [68.5481471934606]
我々は3次元畳み込みオートエンコーダを用いて、無関係な空間画像表現を実現するとともに、ABIDEデータ上で既存のアプローチより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-14T16:50:50Z) - Knowledge Distillation for Brain Tumor Segmentation [0.0]
本研究では,学習過程におけるモデルの性能とデータ量との関係について検討する。
追加データでトレーニングされた単一のモデルは、複数のモデルのアンサンブルに近いパフォーマンスを達成し、個々のメソッドより優れています。
論文 参考訳(メタデータ) (2020-02-10T12:44:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。