論文の概要: ENIGMA: EEG-to-Image in 15 Minutes Using Less Than 1% of the Parameters
- arxiv url: http://arxiv.org/abs/2602.10361v1
- Date: Tue, 10 Feb 2026 23:20:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.335297
- Title: ENIGMA: EEG-to-Image in 15 Minutes Using Less Than 1% of the Parameters
- Title(参考訳): ENIGMA:パラメータの1%未満を使って15分で脳波から画像へ
- Authors: Reese Kneeland, Wangshu Jiang, Ugo Bruzadin Nunes, Paul Steven Scotti, Arnaud Delorme, Jonathan Xu,
- Abstract要約: ENIGMA(エニグマ)は、多目的脳波(EEG)-画像デコードモデルである。
ENIGMAはよりシンプルなアーキテクチャを持ち、以前のアプローチに必要なトレーニング可能なパラメータの1%未満を必要とする。
隣接領域のfMRI-to- Image研究において標準化された画像再構成指標を用いて,提案手法の評価を行った。
- 参考スコア(独自算出の注目度): 1.6939044125893845
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: To be practical for real-life applications, models for brain-computer interfaces must be easily and quickly deployable on new subjects, effective on affordable scanning hardware, and small enough to run locally on accessible computing resources. To directly address these current limitations, we introduce ENIGMA, a multi-subject electroencephalography (EEG)-to-Image decoding model that reconstructs seen images from EEG recordings and achieves state-of-the-art (SOTA) performance on the research-grade THINGS-EEG2 and consumer-grade AllJoined-1.6M benchmarks, while fine-tuning effectively on new subjects with as little as 15 minutes of data. ENIGMA boasts a simpler architecture and requires less than 1% of the trainable parameters necessary for previous approaches. Our approach integrates a subject-unified spatio-temporal backbone along with a set of multi-subject latent alignment layers and an MLP projector to map raw EEG signals to a rich visual latent space. We evaluate our approach using a broad suite of image reconstruction metrics that have been standardized in the adjacent field of fMRI-to-Image research, and we describe the first EEG-to-Image study to conduct extensive behavioral evaluations of our reconstructions using human raters. Our simple and robust architecture provides a significant performance boost across both research-grade and consumer-grade EEG hardware, and a substantial improvement in fine-tuning efficiency and inference cost. Finally, we provide extensive ablations to determine the architectural choices most responsible for our performance gains in both single and multi-subject cases across multiple benchmark datasets. Collectively, our work provides a substantial step towards the development of practical brain-computer interface applications.
- Abstract(参考訳): 現実のアプリケーションで実用化するには、脳-コンピュータインタフェースのモデルは、新しい主題に容易に迅速にデプロイでき、安価なスキャンハードウェアに効果的であり、アクセス可能なコンピューティングリソース上でローカルに実行できるほど小さくなければならない。
脳波記録から視像を再構成し、研究グレードのTHINGS-EEG2とコンシューマグレードのAllJoined-1.6Mベンチマークで最新技術(SOTA)のパフォーマンスを達成し、データ15分以内の新規被験者を効果的に微調整するマルチオブジェクト脳波(EEG)画像復号モデルであるENIGMAを導入する。
ENIGMAはよりシンプルなアーキテクチャを持ち、以前のアプローチに必要なトレーニング可能なパラメータの1%未満を必要とする。
提案手法では,マルチオブジェクト潜在アライメント層とMLPプロジェクタを併用して,脳波信号をリッチな視覚潜在空間にマッピングする。
我々は,fMRI-to-Image研究の現場で標準化された幅広い画像再構成指標を用いてアプローチを評価する。
私たちのシンプルで堅牢なアーキテクチャは、研究グレードとコンシューマグレードのEEGハードウェアの両方で大幅なパフォーマンス向上をもたらし、微調整効率と推論コストを大幅に改善します。
最後に、複数のベンチマークデータセットにまたがるシングルオブジェクトとマルチオブジェクトのケースにおいて、パフォーマンス向上に最も寄与するアーキテクチャ上の選択を決定するために、広範囲なアブリケーションを提供します。
本研究は,脳-コンピュータ・インタフェースの実用化に向けて大きな一歩を踏み出したものである。
関連論文リスト
- MultiDiffNet: A Multi-Objective Diffusion Framework for Generalizable Brain Decoding [1.6528632644902828]
textitMultiDiffNetは、複数の目的に最適化されたコンパクトな潜在空間を学習することで、生成的拡張を完全に回避する拡散ベースのフレームワークである。
我々は、この空間から直接デコードし、主観的およびセッション不整合性評価を用いて、様々なニューラルデコードタスクにまたがる最先端の一般化を実現する。
論文 参考訳(メタデータ) (2025-11-23T05:22:27Z) - HiRes-FusedMIM: A High-Resolution RGB-DSM Pre-trained Model for Building-Level Remote Sensing Applications [2.048226951354646]
HiRes-FusedMIMは、高解像度のRGBおよびDSMデータに含まれる豊富な情報を活用するために特別に設計された、新しい事前訓練モデルである。
分類,セマンティックセグメンテーション,インスタンスセグメンテーションなど,さまざまな下流タスクに対して,HiRes-FusedMIMの総合評価を行った。
論文 参考訳(メタデータ) (2025-03-24T10:49:55Z) - CEReBrO: Compact Encoder for Representations of Brain Oscillations Using Efficient Alternating Attention [46.47343031985037]
交互注意(CEReBrO)を用いた脳振動の表現のための圧縮法について紹介する。
トークン化方式は、チャネルごとのパッチで脳波信号を表現します。
本研究では,チャネル内時間的ダイナミックスとチャネル間空間的相関を共同でモデル化し,通常の自己アテンションに比べて6倍少ないメモリで2倍の速度向上を実現するための注意機構を提案する。
論文 参考訳(メタデータ) (2025-01-18T21:44:38Z) - Real-Time Image Segmentation via Hybrid Convolutional-Transformer Architecture Search [51.89707241449435]
本稿では,高分解能表現CNNにマルチヘッド自己認識を効率よく組み込むという課題に対処する。
本稿では,高解像度機能の利点をフル活用したマルチターゲットマルチブランチ・スーパーネット手法を提案する。
本稿では,Hybrid Convolutional-Transformer Architecture Search (HyCTAS)法を用いて,軽量畳み込み層とメモリ効率のよい自己保持層を最適に組み合わせたモデルを提案する。
論文 参考訳(メタデータ) (2024-03-15T15:47:54Z) - Action Transformer: A Self-Attention Model for Short-Time Human Action
Recognition [5.123810256000945]
Action Transformer (AcT) は、畳み込み層、繰り返し層、注意層を混在させる、より精巧なネットワークを一貫して上回る自己意図型アーキテクチャである。
AcTは、小さな時間ウィンドウ上の2Dポーズ表現を利用し、正確で効果的なリアルタイムパフォーマンスのための低レイテンシソリューションを提供する。
論文 参考訳(メタデータ) (2021-07-01T16:53:16Z) - MIN2Net: End-to-End Multi-Task Learning for Subject-Independent Motor
Imagery EEG Classification [10.773708402778025]
脳波のリズムは被験者に特有のものであり、時間とともに様々な変化が起こる。
本稿では,この課題に対処するための新しいエンドツーエンドマルチタスク学習であるMIN2Netを提案する。
深層学習をマルチタスクオートエンコーダに統合し,脳波からコンパクトかつ識別可能な潜在表現を学習する。
論文 参考訳(メタデータ) (2021-02-07T15:20:23Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。