論文の概要: Interpretable EEG-to-Image Generation with Semantic Prompts
- arxiv url: http://arxiv.org/abs/2507.07157v1
- Date: Wed, 09 Jul 2025 17:18:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.156294
- Title: Interpretable EEG-to-Image Generation with Semantic Prompts
- Title(参考訳): 意味的プロンプトを用いた解釈可能な脳波画像生成
- Authors: Arshak Rezvani, Ali Akbari, Kosar Sanjar Arani, Maryam Mirian, Emad Arasteh, Martin J. McKeown,
- Abstract要約: 本モデルでは,脳波信号とセマンティックキャプションをアライメントすることで,直接脳波画像生成をバイパスする。
トランスフォーマーベースの脳波エンコーダは、対照的な学習を通じて脳活動をこれらのキャプションにマッピングする。
このテキストによるフレームワークは、EEGCVPRデータセット上で最先端のビジュアルデコーディングをもたらす。
- 参考スコア(独自算出の注目度): 6.712646807032639
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decoding visual experience from brain signals offers exciting possibilities for neuroscience and interpretable AI. While EEG is accessible and temporally precise, its limitations in spatial detail hinder image reconstruction. Our model bypasses direct EEG-to-image generation by aligning EEG signals with multilevel semantic captions -- ranging from object-level to abstract themes -- generated by a large language model. A transformer-based EEG encoder maps brain activity to these captions through contrastive learning. During inference, caption embeddings retrieved via projection heads condition a pretrained latent diffusion model for image generation. This text-mediated framework yields state-of-the-art visual decoding on the EEGCVPR dataset, with interpretable alignment to known neurocognitive pathways. Dominant EEG-caption associations reflected the importance of different semantic levels extracted from perceived images. Saliency maps and t-SNE projections reveal semantic topography across the scalp. Our model demonstrates how structured semantic mediation enables cognitively aligned visual decoding from EEG.
- Abstract(参考訳): 脳信号から視覚体験をデコードすることは、神経科学と解釈可能なAIにエキサイティングな可能性をもたらす。
EEGはアクセス可能で時間的に正確であるが、空間的詳細性の限界は画像再構成を妨げている。
脳波信号をオブジェクトレベルから抽象的なテーマまで、大言語モデルによって生成される多レベルセマンティックキャプションと整列させることで、脳波から画像への直接生成をバイパスする。
トランスフォーマーベースの脳波エンコーダは、対照的な学習を通じて脳活動をこれらのキャプションにマッピングする。
推論中は、画像生成のための事前訓練された潜伏拡散モデルとして、投影ヘッド条件を介してキャプション埋め込みが検索される。
このテキスト経由のフレームワークは、既知の神経認知経路と解釈可能なアライメントで、EEGCVPRデータセットの最先端の視覚的デコーディングをもたらす。
支配的な脳波キャプチャー関連は、知覚画像から抽出された異なる意味レベルの重要性を反映していた。
サリエンシマップとt-SNEプロジェクションは、頭皮を横断する意味的トポグラフィーを明らかにする。
本モデルでは,脳波からの認知的視覚的復号を可能にする構造的調停を実証する。
関連論文リスト
- Learning Interpretable Representations Leads to Semantically Faithful EEG-to-Text Generation [52.51005875755718]
我々は脳波からテキストへの復号に焦点をあて、後部崩壊のレンズを通して幻覚の問題に対処する。
脳波とテキスト間の情報容量のミスマッチを認め、デコードタスクをコア意味のセマンティックな要約として再設計する。
パブリックなZuCoデータセットの実験では、GLIMが一貫して、流動的なEEG基底文を生成することが示されている。
論文 参考訳(メタデータ) (2025-05-21T05:29:55Z) - CognitionCapturer: Decoding Visual Stimuli From Human EEG Signal With Multimodal Information [61.1904164368732]
脳波信号の表現にマルチモーダルデータを完全に活用する統合フレームワークであるCognitionCapturerを提案する。
具体的には、CognitionCapturerは、各モダリティに対してモダリティエキスパートを訓練し、EEGモダリティからモダリティ情報を抽出する。
このフレームワークは生成モデルの微調整を一切必要とせず、より多くのモダリティを組み込むように拡張することができる。
論文 参考訳(メタデータ) (2024-12-13T16:27:54Z) - Visual Neural Decoding via Improved Visual-EEG Semantic Consistency [3.4061238650474657]
EEG機能をCLIP埋め込みスペースに直接マッピングするメソッドは、マッピングバイアスを導入し、セマンティックな矛盾を引き起こす可能性がある。
最適アライメントを容易にするために,これらの2つのモードのセマンティックな特徴を明示的に抽出する Visual-EEG Semantic Decouple Framework を提案する。
提案手法は,ゼロショットニューラルデコードタスクの最先端化を実現する。
論文 参考訳(メタデータ) (2024-08-13T10:16:10Z) - BrainVis: Exploring the Bridge between Brain and Visual Signals via Image Reconstruction [7.512223286737468]
脳信号からの視覚刺激の分析と再構成は、人間の視覚系の理解を効果的に進める。
しかし、脳波信号は複雑であり、大きなノイズを含む。
これにより、脳波からの視覚刺激再建の既存の作品にかなりの制限が生じる。
我々はこれらの課題に対処するためにBrainVisと呼ばれる新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:49:11Z) - Learning Robust Deep Visual Representations from EEG Brain Recordings [13.768240137063428]
本研究は,脳波に基づく深部表現の頑健な学習を行うための2段階の手法を提案する。
ディープラーニングアーキテクチャを用いて,3つのデータセットにまたがる特徴抽出パイプラインの一般化性を実証する。
本稿では,未知の画像を脳波空間に変換し,近似を用いて再構成する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-10-25T10:26:07Z) - A Knowledge-Driven Cross-view Contrastive Learning for EEG
Representation [48.85731427874065]
本稿では,限られたラベルを持つ脳波から効果的な表現を抽出する知識駆動型クロスビューコントラスト学習フレームワーク(KDC2)を提案する。
KDC2法は脳波信号の頭皮と神経のビューを生成し、脳活動の内部および外部の表現をシミュレートする。
ニューラル情報整合性理論に基づく事前のニューラル知識をモデル化することにより、提案手法は不変かつ相補的なニューラル知識を抽出し、複合表現を生成する。
論文 参考訳(メタデータ) (2023-09-21T08:53:51Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。