論文の概要: Neuroscience-inspired Staged Representation Learning with Disentangled Coarse- and Fine-Grained Semantics for EEG Visual Decoding
- arxiv url: http://arxiv.org/abs/2605.16923v2
- Date: Wed, 20 May 2026 08:55:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 14:55:44.226531
- Title: Neuroscience-inspired Staged Representation Learning with Disentangled Coarse- and Fine-Grained Semantics for EEG Visual Decoding
- Title(参考訳): 脳波視覚復号のための絡み合った粗さと細粒度セマンティックスを用いた神経科学による段階的表現学習
- Authors: Xiang Gao, Hui Tian, Yanming Zhu, Xuefei Yin, Alan Wee-Chung Liew,
- Abstract要約: 既存の脳波の視覚的復号法は主に、クロスモーダルアライメントのための単一のグローバル脳波埋め込みを学習することに焦点を当てている。
本稿では,脳波の視覚的復号化をステージ固有の表現分解問題として再定義する,神経科学にインスパイアされた段階的表現学習フレームワークを提案する。
提案フレームワークは,脳波表現学習を,低レベル視覚表現学習,高レベル意味表現学習,統合情報融合という3つの相補的なフェーズに編成する。
- 参考スコア(独自算出の注目度): 20.814486415153404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decoding visual information from electroencephalography (EEG) signals remains a fundamental challenge in brain-computer interfaces and medical rehabilitation. Existing EEG visual decoding methods mainly focus on learning a single global EEG embedding for cross-modal alignment, but they largely overlook the staged and hierarchical characteristics of human visual processing. To address this limitation, we propose a neuroscience-inspired staged representation learning framework that reformulates EEG visual decoding as a stage-specific representation decomposition problem. The proposed framework organizes EEG representation learning into three complementary phases: low-level visual representation learning, high-level semantic representation learning, and integrative information fusion. To strengthen semantic modeling, we further introduce a multimodal dual-level semantic learning mechanism that separates coarse label-level semantics from fine image-level visual-semantic information. In addition, semantic latent channels are introduced as computational representation channels generated from observed visual EEG signals, expanding the channel-level semantic representation space for structured semantic abstraction and cross-modal alignment. Extensive experiments on the THINGS-EEG benchmark demonstrate that the proposed method achieves superior performance under subject-dependent zero-shot evaluation and improved exact retrieval under subject-independent zero-shot evaluation. Additional analyses, including layer-wise retrieval, temporal accumulation, expanded multi-image retrieval, and ablation studies, further support the effectiveness of staged decomposition and structured semantic modeling. These results suggest that explicitly modeling staged perceptual, semantic, and integrative representations provides an effective neuroscience-inspired framework for EEG-based visual decoding.
- Abstract(参考訳): 脳波(EEG)信号から視覚情報をデコードすることは、脳とコンピュータのインターフェイスと医療のリハビリテーションにおける根本的な課題である。
既存の脳波の視覚的復号法は主に1つのグローバルな脳波埋め込みをクロスモーダルなアライメントのために学習することに焦点を当てているが、それらは主に人間の視覚処理の段階的および階層的特性を見落としている。
この制限に対処するために,脳波の視覚的復号化をステージ固有の表現分解問題として再定義する神経科学に着想を得た段階的表現学習フレームワークを提案する。
提案フレームワークは,脳波表現学習を,低レベル視覚表現学習,高レベル意味表現学習,統合情報融合という3つの相補的なフェーズに編成する。
セマンティックモデリングを強化するために,さらに,粗いラベルレベルのセマンティックスと細かな画像レベルの視覚的セマンティック情報とを分離するマルチモーダルなデュアルレベルセマンティック学習機構を導入する。
さらに、観察された視覚脳波信号から生成される計算表現チャネルとしてセマンティック潜在チャネルを導入し、構造化セマンティック抽象化とクロスモーダルアライメントのためのチャネルレベルセマンティック表現空間を拡張した。
THINGS-EEGベンチマークの大規模な実験により、提案手法は、主観非依存ゼロショット評価において優れた性能を示し、主観非依存ゼロショット評価では精度の高い精度で検索できることを示した。
レイヤワイズ検索、時間蓄積、拡張多重画像検索、アブレーション研究などの追加分析は、ステージ分解と構造化セマンティックモデリングの有効性をさらに支援している。
これらの結果は、段階的知覚的、意味的、統合的表現を明示的にモデル化することは、脳波に基づく視覚的復号のための効果的な神経科学的な枠組みをもたらすことを示唆している。
関連論文リスト
- Structure-Guided Diffusion Model for EEG-Based Visual Cognition Reconstruction [2.77392799295445]
脳波(EEG)から視覚情報を復号することは神経科学と脳-コンピュータインターフェース(BCI)研究において重要な問題である。
本稿では,脳波を用いた視覚再構成のための構造情報を含む構造ガイド拡散モデルを提案する。
論文 参考訳(メタデータ) (2026-04-24T15:20:59Z) - Aligning What EEG Can See: Structural Representations for Brain-Vision Matching [26.36030588128271]
脳波(EEG)からの視覚的デコーディングは、非侵襲的な脳-コンピュータインターフェースのための、非常に有望な道として現れてきた。
既存の脳波に基づく復号法は、主に脳信号を深部視覚モデルの最終層セマンティック埋め込みと整合させる。
ニューラルビザビリティの概念を導入し,脳波可視層選択戦略を提案する。
論文 参考訳(メタデータ) (2026-03-07T07:12:08Z) - Bridging Cognitive Gap: Hierarchical Description Learning for Artistic Image Aesthetics Assessment [51.40989269202702]
審美的品質評価タスクは,AIGCの定量的評価システムの開発に不可欠である。
本研究では,記述生成による美的次元の分離を図った芸術的画像の美的評価フレームワークであるArtQuantを提案する。
提案手法は,従来のトレーニングの33%しか必要とせず,いくつかのデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-12-29T12:18:26Z) - WaveMind: Towards a Conversational EEG Foundation Model Aligned to Textual and Visual Modalities [55.00677513249723]
脳波信号は認知過程と固有の神経状態の両方を同時に符号化する。
我々は、EEG信号とその対応するモダリティを統一意味空間にマッピングし、一般化された解釈を実現する。
結果として得られたモデルは、柔軟でオープンな会話をサポートしながら、堅牢な分類精度を示す。
論文 参考訳(メタデータ) (2025-09-26T06:21:51Z) - Interpretable EEG-to-Image Generation with Semantic Prompts [6.712646807032639]
本モデルでは,脳波信号とセマンティックキャプションをアライメントすることで,直接脳波画像生成をバイパスする。
トランスフォーマーベースの脳波エンコーダは、対照的な学習を通じて脳活動をこれらのキャプションにマッピングする。
このテキストによるフレームワークは、EEGCVPRデータセット上で最先端のビジュアルデコーディングをもたらす。
論文 参考訳(メタデータ) (2025-07-09T17:18:06Z) - ViEEG: Hierarchical Visual Neural Representation for EEG Brain Decoding [18.51835182602402]
ViEEGは神経系であり、我々はさらに、EEG-CLIPのアライメントアライメントに階層的コントラスト学習を採用し、ゼロショットオブジェクト認識を可能にする。
われわれのフレームワークは脳波脳波復号のための新しいパラダイムを定めている。
ViEEGは、視覚刺激を3つの生物学的に整列した構成要素、前景のオブジェクト、三次元脳波エンコーダのための文脈的なシーン保存アンカーに分解する。
論文 参考訳(メタデータ) (2025-05-18T13:19:08Z) - CognitionCapturer: Decoding Visual Stimuli From Human EEG Signal With Multimodal Information [61.1904164368732]
脳波信号の表現にマルチモーダルデータを完全に活用する統合フレームワークであるCognitionCapturerを提案する。
具体的には、CognitionCapturerは、各モダリティに対してモダリティエキスパートを訓練し、EEGモダリティからモダリティ情報を抽出する。
このフレームワークは生成モデルの微調整を一切必要とせず、より多くのモダリティを組み込むように拡張することができる。
論文 参考訳(メタデータ) (2024-12-13T16:27:54Z) - Visual Neural Decoding via Improved Visual-EEG Semantic Consistency [3.4061238650474657]
EEG機能をCLIP埋め込みスペースに直接マッピングするメソッドは、マッピングバイアスを導入し、セマンティックな矛盾を引き起こす可能性がある。
最適アライメントを容易にするために,これらの2つのモードのセマンティックな特徴を明示的に抽出する Visual-EEG Semantic Decouple Framework を提案する。
提案手法は,ゼロショットニューラルデコードタスクの最先端化を実現する。
論文 参考訳(メタデータ) (2024-08-13T10:16:10Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。