論文の概要: Cross-Subject Data Splitting for Brain-to-Text Decoding
- arxiv url: http://arxiv.org/abs/2312.10987v3
- Date: Fri, 14 Jun 2024 07:30:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 19:24:01.456530
- Title: Cross-Subject Data Splitting for Brain-to-Text Decoding
- Title(参考訳): 脳とテキストの復号のためのクロスオブジェクトデータ分割
- Authors: Congchi Yin, Qian Yu, Zhiwei Fang, Jie He, Changping Peng, Zhangang Lin, Jingping Shao, Piji Li,
- Abstract要約: 各種認知データセット(fMRI,EEG)における脳からテキストへのデコーディングのためのオブジェクト間データ分割基準を提案する。
既存のクロスオブジェクトデータ分割戦略を包括的に分析し、これらの手法がデータ漏洩に悩まされていることを証明する。
提案するクロスオブジェクト分割法は,データ漏洩問題に対処し,さらなる研究のベースラインとして,いくつかのSOTA脳-テキストデコーディングモデルを再評価する。
- 参考スコア(独自算出の注目度): 36.30024741795527
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent major milestones have successfully decoded non-invasive brain signals (e.g. functional Magnetic Resonance Imaging (fMRI) and electroencephalogram (EEG)) into natural language. Despite the progress in model design, how to split the datasets for training, validating, and testing still remains a matter of debate. Most of the prior researches applied subject-specific data splitting, where the decoding model is trained and evaluated per subject. Such splitting method poses challenges to the utilization efficiency of dataset as well as the generalization of models. In this study, we propose a cross-subject data splitting criterion for brain-to-text decoding on various types of cognitive dataset (fMRI, EEG), aiming to maximize dataset utilization and improve model generalization. We undertake a comprehensive analysis on existing cross-subject data splitting strategies and prove that all these methods suffer from data leakage, namely the leakage of test data to training set, which significantly leads to overfitting and overestimation of decoding models. The proposed cross-subject splitting method successfully addresses the data leakage problem and we re-evaluate some SOTA brain-to-text decoding models as baselines for further research.
- Abstract(参考訳): 最近の大きなマイルストーンは、非侵襲的な脳信号(例えば、機能的磁気共鳴イメージング(fMRI)と脳波(EEG))を自然言語に復号することに成功している。
モデル設計の進歩にもかかわらず、トレーニング、検証、テストのためにデータセットを分割する方法はまだ議論の余地がある。
以前の研究では、デコードモデルをトレーニングし、被験者毎に評価する、主題固有のデータ分割を適用していた。
このような分割法は、データセットの利用効率とモデルの一般化に課題をもたらす。
本研究では,様々な種類の認知データセット(fMRI,EEG)における脳からテキストへのデコーディングのためのオブジェクト間データ分割基準を提案し,データセットの利用を最大化し,モデル一般化を改善することを目的とした。
我々は、既存のクロスオブジェクトデータ分割戦略を総合的に分析し、これらの手法がデータ漏洩、すなわち、テストデータのトレーニングセットへのリークに悩まされていることを証明し、デコードモデルの過度な適合と過大評価につながった。
提案するクロスオブジェクト分割法は,データ漏洩問題に対処し,さらなる研究のベースラインとして,いくつかのSOTA脳-テキストデコーディングモデルを再評価する。
関連論文リスト
- Across-subject ensemble-learning alleviates the need for large samples for fMRI decoding [37.41192511246204]
オブジェクト内デコーディングはオブジェクト間の対応の問題を回避するが、正確な予測を行うにはサンプルサイズが大きい。
本稿では、他の被験者のデータに基づいて訓練された分類器を組み合わせて、新しい被験者の認知状態を復号化するためのアンサンブルアプローチについて検討する。
特にオブジェクトごとのデータに制限のあるデータセットでは,従来の復号法よりも最大20%の精度で性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-09T08:22:44Z) - Few-shot learning for COVID-19 Chest X-Ray Classification with
Imbalanced Data: An Inter vs. Intra Domain Study [49.5374512525016]
医療画像データセットは、コンピュータ支援診断、治療計画、医学研究に使用される訓練モデルに不可欠である。
データ分散のばらつき、データの不足、ジェネリックイメージから事前トレーニングされたモデルを使用する場合の転送学習の問題などである。
本稿では,データ不足と分散不均衡の影響を軽減するために,一連の手法を統合したシームズニューラルネットワークに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-01-18T16:59:27Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Source-Free Collaborative Domain Adaptation via Multi-Perspective
Feature Enrichment for Functional MRI Analysis [55.03872260158717]
安静時MRI機能(rs-fMRI)は、神経疾患の分析を助けるために多地点で研究されている。
ソース領域とターゲット領域の間のfMRIの不均一性を低減するための多くの手法が提案されている。
しかし、マルチサイト研究における懸念やデータストレージの負担のため、ソースデータの取得は困難である。
我々は、fMRI解析のためのソースフリー協調ドメイン適応フレームワークを設計し、事前訓練されたソースモデルとラベルなしターゲットデータのみにアクセスできるようにする。
論文 参考訳(メタデータ) (2023-08-24T01:30:18Z) - Machine Learning Based Missing Values Imputation in Categorical Datasets [2.5611256859404983]
この研究では、分類データセットのギャップを埋めるための機械学習アルゴリズムの使用について検討した。
Error Correction Output Codesフレームワークを使用して構築されたアンサンブルモデルに重点が置かれた。
大量のラベル付きデータの要求を含む、これらの奨励的な結果にもかかわらず、データ計算の欠如に対する深い学習には障害がある。
論文 参考訳(メタデータ) (2023-06-10T03:29:48Z) - FAST-AID Brain: Fast and Accurate Segmentation Tool using Artificial
Intelligence Developed for Brain [0.8376091455761259]
ヒト脳の132領域への高速かつ正確なセグメンテーションのための新しい深層学習法を提案する。
提案モデルは、効率的なU-Netライクなネットワークと、異なるビューと階層関係の交差点の利点を利用する。
提案手法は,画像の事前処理や性能低下を伴わずに頭蓋骨や他の人工物を含む脳MRIデータに適用することができる。
論文 参考訳(メタデータ) (2022-08-30T16:06:07Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z) - Fader Networks for domain adaptation on fMRI: ABIDE-II study [68.5481471934606]
我々は3次元畳み込みオートエンコーダを用いて、無関係な空間画像表現を実現するとともに、ABIDEデータ上で既存のアプローチより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-14T16:50:50Z) - Knowledge Distillation for Brain Tumor Segmentation [0.0]
本研究では,学習過程におけるモデルの性能とデータ量との関係について検討する。
追加データでトレーニングされた単一のモデルは、複数のモデルのアンサンブルに近いパフォーマンスを達成し、個々のメソッドより優れています。
論文 参考訳(メタデータ) (2020-02-10T12:44:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。