論文の概要: NeuroCLIP: Brain-Inspired Prompt Tuning for EEG-to-Image Multimodal Contrastive Learning
- arxiv url: http://arxiv.org/abs/2511.09250v1
- Date: Thu, 13 Nov 2025 01:42:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.485601
- Title: NeuroCLIP: Brain-Inspired Prompt Tuning for EEG-to-Image Multimodal Contrastive Learning
- Title(参考訳): NeuroCLIP:脳波から画像へのマルチモーダルコントラスト学習のための脳誘発プロンプトチューニング
- Authors: Jiyuan Wang, Li Zhang, Haipeng Lin, Qile Liu, Gan Huang, Ziyu Li, Zhen Liang, Xia Wu,
- Abstract要約: 脳波から画像へのコントラスト学習に適したプロンプトチューニングフレームワークであるNeuroCLIPを提案する。
我々は初めて視覚的プロンプトトークンを脳波画像アライメントに導入し、グローバルなモダリティレベルのプロンプトとして機能する。
THINGS-EEG2データセットでは、NeuroCLIPはゼロショット画像検索において63.2%のTop-1精度を達成した。
- 参考スコア(独自算出の注目度): 13.254096454986318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in brain-inspired artificial intelligence have sought to align neural signals with visual semantics using multimodal models such as CLIP. However, existing methods often treat CLIP as a static feature extractor, overlooking its adaptability to neural representations and the inherent physiological-symbolic gap in EEG-image alignment. To address these challenges, we present NeuroCLIP, a prompt tuning framework tailored for EEG-to-image contrastive learning. Our approach introduces three core innovations: (1) We design a dual-stream visual embedding pipeline that combines dynamic filtering and token-level fusion to generate instance-level adaptive prompts, which guide the adjustment of patch embedding tokens based on image content, thereby enabling fine-grained modulation of visual representations under neural constraints; (2) We are the first to introduce visual prompt tokens into EEG-image alignment, acting as global, modality- level prompts that work in conjunction with instance-level adjustments. These visual prompt tokens are inserted into the Transformer architecture to facilitate neural-aware adaptation and parameter optimization at a global level; (3) Inspired by neuroscientific principles of human visual encoding, we propose a refined contrastive loss that better model the semantic ambiguity and cross-modal noise present in EEG signals. On the THINGS-EEG2 dataset, NeuroCLIP achieves a Top-1 accuracy of 63.2% in zero-shot image retrieval, surpassing the previous best method by +12.3%, and demonstrates strong generalization under inter-subject conditions (+4.6% Top-1), highlighting the potential of physiology-aware prompt tuning for bridging brain signals and visual semantics.
- Abstract(参考訳): 脳にインスパイアされた人工知能の最近の進歩は、CLIPのようなマルチモーダルモデルを用いて、神経信号を視覚的意味論と整合させようとしている。
しかし、既存の方法はしばしばCLIPを静的な特徴抽出器として扱い、神経表現への適応性と脳波画像アライメントにおける固有の生理的・記号的ギャップを見越す。
これらの課題に対処するために,脳波から画像へのコントラスト学習に適したプロンプトチューニングフレームワークであるNeuroCLIPを提案する。
提案手法では, 動的フィルタリングとトークンレベルの融合を組み合わせたデュアルストリーム視覚埋め込みパイプラインを設計し, 画像コンテンツに基づくパッチ埋め込みトークンの調整を誘導し, ニューラル制約下での視覚的表現のきめ細かい調整を可能にする。
これらの視覚的プロンプトトークンはTransformerアーキテクチャに挿入され,脳波信号における意味的あいまいさとクロスモーダルノイズをモデル化する改良されたコントラスト損失を提案する。
THINGS-EEG2データセットでは、NeuroCLIPは、ゼロショット画像検索において63.2%のTop-1精度を達成し、以前のベストメソッドを+12.3%超え、オブジェクト間条件(+4.6%Top-1)下での強力な一般化を示し、脳信号と視覚意味論をブリッジするための生理的認識の迅速なチューニングの可能性を強調している。
関連論文リスト
- Moving Beyond Diffusion: Hierarchy-to-Hierarchy Autoregression for fMRI-to-Image Reconstruction [65.67001243986981]
我々は,スケールワイド自己回帰モデルに基づく粗大なfMRI画像再構成フレームワークであるMindHierを提案する。
MindHierは、拡散ベースのベースラインよりも優れたセマンティック忠実さ、4.67倍高速な推論、より決定論的結果を達成する。
論文 参考訳(メタデータ) (2025-10-25T15:40:07Z) - NeuroRVQ: Multi-Scale EEG Tokenization for Generative Large Brainwave Models [66.91449452840318]
我々は、コードブックベースのトークン化装置を中心としたスケーラブルな大脳波モデル(LBM)であるNeuroRVQを紹介する。
我々のトークンライザは, (i) フル周波数のニューラルスペクトルを捕捉するマルチスケール特徴抽出モジュール, (ii) 高精細符号化のための階層的残留ベクトル量子化(RVQ)コードブック, (iii) 効率的なトレーニングのためのEEG信号位相および振幅認識損失関数を統合する。
実験の結果,NeuroRVQは再建誤差を低くし,様々な下流タスクにおいて既存のLBMよりも優れることがわかった。
論文 参考訳(メタデータ) (2025-10-15T01:26:52Z) - Spatial-Functional awareness Transformer-based graph archetype contrastive learning for Decoding Visual Neural Representations from EEG [3.661246946935037]
本稿では,脳波に基づく視覚的デコーディングを強化するために,空間認識変換器を用いたグラフアーチタイプコントラスト学習(SFTG)フレームワークを提案する。
具体的には、空間的脳の接続性と時間的神経力学を同時に符号化する新しいグラフベースのニューラルアーキテクチャであるEEG Graph Transformer(EGT)を紹介する。
高い対象内変動を緩和するために,特徴の整合性とクラス分離性を改善するために,主観固有の脳波グラフアーチタイプを学習するグラフアーチタイプコントラスト学習(GAC)を提案する。
論文 参考訳(メタデータ) (2025-09-29T13:27:55Z) - SynBrain: Enhancing Visual-to-fMRI Synthesis via Probabilistic Representation Learning [54.390403684665834]
視覚刺激が皮質反応にどのように変換されるかを理解することは、計算神経科学の基本的な課題である。
視覚的意味論から神経反応への変換を確率的かつ生物学的に解釈可能な方法でシミュレートする生成フレームワークであるSynBrainを提案する。
実験結果から,SynBrainは被写体特異的視覚-fMRI符号化性能において最先端の手法を超越していることが示された。
論文 参考訳(メタデータ) (2025-08-14T03:01:05Z) - ViEEG: Hierarchical Visual Neural Representation for EEG Brain Decoding [18.51835182602402]
ViEEGは神経系であり、我々はさらに、EEG-CLIPのアライメントアライメントに階層的コントラスト学習を採用し、ゼロショットオブジェクト認識を可能にする。
われわれのフレームワークは脳波脳波復号のための新しいパラダイムを定めている。
ViEEGは、視覚刺激を3つの生物学的に整列した構成要素、前景のオブジェクト、三次元脳波エンコーダのための文脈的なシーン保存アンカーに分解する。
論文 参考訳(メタデータ) (2025-05-18T13:19:08Z) - Neural-MCRL: Neural Multimodal Contrastive Representation Learning for EEG-based Visual Decoding [2.587640069216139]
脳波(EEG)を用いた脳活動からの神経視覚表現のデコードは、脳-機械界面(BMI)の進行に不可欠である
既存の手法は、しばしばモダリティ内の意味的一貫性と完全性を見落とし、モダリティ間の効果的なセマンティックアライメントを欠いている。
本稿では,セマンティックブリッジとクロスアテンション機構によるマルチモーダルアライメントを実現する新しいフレームワークであるNeural-MCRLを提案する。
論文 参考訳(メタデータ) (2024-12-23T07:02:44Z) - MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。
このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。
実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。