論文の概要: ENIGMA: EEG-to-Image in 15 Minutes Using Less Than 1% of the Parameters
- arxiv url: http://arxiv.org/abs/2602.10361v1
- Date: Tue, 10 Feb 2026 23:20:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.335297
- Title: ENIGMA: EEG-to-Image in 15 Minutes Using Less Than 1% of the Parameters
- Title(参考訳): ENIGMA:パラメータの1%未満を使って15分で脳波から画像へ
- Authors: Reese Kneeland, Wangshu Jiang, Ugo Bruzadin Nunes, Paul Steven Scotti, Arnaud Delorme, Jonathan Xu,
- Abstract要約: ENIGMA(エニグマ)は、多目的脳波(EEG)-画像デコードモデルである。
ENIGMAはよりシンプルなアーキテクチャを持ち、以前のアプローチに必要なトレーニング可能なパラメータの1%未満を必要とする。
隣接領域のfMRI-to- Image研究において標準化された画像再構成指標を用いて,提案手法の評価を行った。
- 参考スコア(独自算出の注目度): 1.6939044125893845
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: To be practical for real-life applications, models for brain-computer interfaces must be easily and quickly deployable on new subjects, effective on affordable scanning hardware, and small enough to run locally on accessible computing resources. To directly address these current limitations, we introduce ENIGMA, a multi-subject electroencephalography (EEG)-to-Image decoding model that reconstructs seen images from EEG recordings and achieves state-of-the-art (SOTA) performance on the research-grade THINGS-EEG2 and consumer-grade AllJoined-1.6M benchmarks, while fine-tuning effectively on new subjects with as little as 15 minutes of data. ENIGMA boasts a simpler architecture and requires less than 1% of the trainable parameters necessary for previous approaches. Our approach integrates a subject-unified spatio-temporal backbone along with a set of multi-subject latent alignment layers and an MLP projector to map raw EEG signals to a rich visual latent space. We evaluate our approach using a broad suite of image reconstruction metrics that have been standardized in the adjacent field of fMRI-to-Image research, and we describe the first EEG-to-Image study to conduct extensive behavioral evaluations of our reconstructions using human raters. Our simple and robust architecture provides a significant performance boost across both research-grade and consumer-grade EEG hardware, and a substantial improvement in fine-tuning efficiency and inference cost. Finally, we provide extensive ablations to determine the architectural choices most responsible for our performance gains in both single and multi-subject cases across multiple benchmark datasets. Collectively, our work provides a substantial step towards the development of practical brain-computer interface applications.
- Abstract(参考訳): 現実のアプリケーションで実用化するには、脳-コンピュータインタフェースのモデルは、新しい主題に容易に迅速にデプロイでき、安価なスキャンハードウェアに効果的であり、アクセス可能なコンピューティングリソース上でローカルに実行できるほど小さくなければならない。
脳波記録から視像を再構成し、研究グレードのTHINGS-EEG2とコンシューマグレードのAllJoined-1.6Mベンチマークで最新技術(SOTA)のパフォーマンスを達成し、データ15分以内の新規被験者を効果的に微調整するマルチオブジェクト脳波(EEG)画像復号モデルであるENIGMAを導入する。
ENIGMAはよりシンプルなアーキテクチャを持ち、以前のアプローチに必要なトレーニング可能なパラメータの1%未満を必要とする。
提案手法では,マルチオブジェクト潜在アライメント層とMLPプロジェクタを併用して,脳波信号をリッチな視覚潜在空間にマッピングする。
我々は,fMRI-to-Image研究の現場で標準化された幅広い画像再構成指標を用いてアプローチを評価する。
私たちのシンプルで堅牢なアーキテクチャは、研究グレードとコンシューマグレードのEEGハードウェアの両方で大幅なパフォーマンス向上をもたらし、微調整効率と推論コストを大幅に改善します。
最後に、複数のベンチマークデータセットにまたがるシングルオブジェクトとマルチオブジェクトのケースにおいて、パフォーマンス向上に最も寄与するアーキテクチャ上の選択を決定するために、広範囲なアブリケーションを提供します。
本研究は,脳-コンピュータ・インタフェースの実用化に向けて大きな一歩を踏み出したものである。
関連論文リスト
- MultiDiffNet: A Multi-Objective Diffusion Framework for Generalizable Brain Decoding [1.6528632644902828]
textitMultiDiffNetは、複数の目的に最適化されたコンパクトな潜在空間を学習することで、生成的拡張を完全に回避する拡散ベースのフレームワークである。
我々は、この空間から直接デコードし、主観的およびセッション不整合性評価を用いて、様々なニューラルデコードタスクにまたがる最先端の一般化を実現する。
論文 参考訳(メタデータ) (2025-11-23T05:22:27Z) - Rethinking Efficient Hierarchical Mixing Architecture for Low-light RAW Image Enhancement [70.94252289772685]
高速低照度画像信号処理(ISP)のための階層混合アーキテクチャ(HiMA)を提案する。
HiMAはTransformerとMambaモジュールの相補的な長所を利用して、大規模かつ小規模な機能を処理する。
局所的な変動が強い不均一照明に対処するため,LoDA(Local Distribution Adjustment)を提案する。
さらに,第1段階からの復号化出力をフル活用するために,MPFモジュールを設計する。
論文 参考訳(メタデータ) (2025-10-17T10:09:38Z) - HiRes-FusedMIM: A High-Resolution RGB-DSM Pre-trained Model for Building-Level Remote Sensing Applications [2.048226951354646]
HiRes-FusedMIMは、高解像度のRGBおよびDSMデータに含まれる豊富な情報を活用するために特別に設計された、新しい事前訓練モデルである。
分類,セマンティックセグメンテーション,インスタンスセグメンテーションなど,さまざまな下流タスクに対して,HiRes-FusedMIMの総合評価を行った。
論文 参考訳(メタデータ) (2025-03-24T10:49:55Z) - CEReBrO: Compact Encoder for Representations of Brain Oscillations Using Efficient Alternating Attention [46.47343031985037]
交互注意(CEReBrO)を用いた脳振動の表現のための圧縮法について紹介する。
トークン化方式は、チャネルごとのパッチで脳波信号を表現します。
本研究では,チャネル内時間的ダイナミックスとチャネル間空間的相関を共同でモデル化し,通常の自己アテンションに比べて6倍少ないメモリで2倍の速度向上を実現するための注意機構を提案する。
論文 参考訳(メタデータ) (2025-01-18T21:44:38Z) - Efficient MedSAMs: Segment Anything in Medical Images on Laptop [69.28565867103542]
我々は,迅速な医用画像のセグメンテーションに特化した初の国際コンペを組織した。
トップチームは軽量なセグメンテーション基盤モデルを開発し、効率的な推論パイプラインを実装した。
最高のパフォーマンスのアルゴリズムは、臨床導入を促進するために、ユーザフレンドリーなインターフェースを備えたオープンソースソフトウェアに組み込まれている。
論文 参考訳(メタデータ) (2024-12-20T17:33:35Z) - Hierarchical Information Flow for Generalized Efficient Image Restoration [108.83750852785582]
画像復元のための階層型情報フロー機構であるHi-IRを提案する。
Hi-IRは、劣化した画像を表す階層的な情報ツリーを3段階にわたって構築する。
7つの共通画像復元タスクにおいて、Hi-IRはその有効性と一般化性を達成する。
論文 参考訳(メタデータ) (2024-11-27T18:30:08Z) - Real-Time Image Segmentation via Hybrid Convolutional-Transformer Architecture Search [51.89707241449435]
本稿では,高分解能表現CNNにマルチヘッド自己認識を効率よく組み込むという課題に対処する。
本稿では,高解像度機能の利点をフル活用したマルチターゲットマルチブランチ・スーパーネット手法を提案する。
本稿では,Hybrid Convolutional-Transformer Architecture Search (HyCTAS)法を用いて,軽量畳み込み層とメモリ効率のよい自己保持層を最適に組み合わせたモデルを提案する。
論文 参考訳(メタデータ) (2024-03-15T15:47:54Z) - vEEGNet: learning latent representations to reconstruct EEG raw data via
variational autoencoders [3.031375888004876]
本稿では,2つのモジュールを持つDLアーキテクチャであるvEEGNetを提案する。つまり,データの潜在表現を抽出する変分オートエンコーダに基づく教師なしモジュールと,フィードフォワードニューラルネットワークに基づく教師付きモジュールにより異なる動作を分類する。
我々は最先端の分類性能を示し、生の脳波の低周波成分と中周波成分の両方を再構成する能力を示した。
論文 参考訳(メタデータ) (2023-11-16T19:24:40Z) - Image-specific Convolutional Kernel Modulation for Single Image
Super-resolution [85.09413241502209]
本稿では,新しい画像特異的畳み込み変調カーネル(IKM)を提案する。
我々は、画像や特徴のグローバルな文脈情報を利用して、畳み込みカーネルを適応的に調整するための注意重みを生成する。
単一画像超解像実験により,提案手法は最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-11-16T11:05:10Z) - Action Transformer: A Self-Attention Model for Short-Time Human Action
Recognition [5.123810256000945]
Action Transformer (AcT) は、畳み込み層、繰り返し層、注意層を混在させる、より精巧なネットワークを一貫して上回る自己意図型アーキテクチャである。
AcTは、小さな時間ウィンドウ上の2Dポーズ表現を利用し、正確で効果的なリアルタイムパフォーマンスのための低レイテンシソリューションを提供する。
論文 参考訳(メタデータ) (2021-07-01T16:53:16Z) - MIN2Net: End-to-End Multi-Task Learning for Subject-Independent Motor
Imagery EEG Classification [10.773708402778025]
脳波のリズムは被験者に特有のものであり、時間とともに様々な変化が起こる。
本稿では,この課題に対処するための新しいエンドツーエンドマルチタスク学習であるMIN2Netを提案する。
深層学習をマルチタスクオートエンコーダに統合し,脳波からコンパクトかつ識別可能な潜在表現を学習する。
論文 参考訳(メタデータ) (2021-02-07T15:20:23Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。