論文の概要: Brain-to-Image Retrieval and Reconstruction via Multimodal EEG Alignment
- arxiv url: http://arxiv.org/abs/2605.23996v1
- Date: Mon, 18 May 2026 05:33:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.450655
- Title: Brain-to-Image Retrieval and Reconstruction via Multimodal EEG Alignment
- Title(参考訳): マルチモーダル脳波アライメントによる脳画像検索と再構成
- Authors: Chi Kit Wong, Yan Liu, Haowen Yan,
- Abstract要約: 自然視中に記録された脳波信号から視覚刺激をデコードする脳画像合成システムを提案する。
検索のために,生物にインスパイアされたEVNet機能により改良されたマルチレベルブラーリング手法を実装し,InfoNCE損失をトレーニングした。
再構築のために,脳波表現をマルチモーダルCLIP埋め込みに整合させるCognitionCapturerProを実装した。
- 参考スコア(独自算出の注目度): 4.287289090700458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a brain-to-image system that decodes visual stimuli from EEG signals recorded during natural image viewing. Our system addresses two tasks: (1) EEG-to-image retrieval, which ranks the correct stimulus image among 200 candidates given an EEG segment, and (2) EEG-to-image reconstruction, which generates an image consistent with the perceived stimulus. For retrieval, we implement a multi-level blurring approach improved with biologically inspired EVNet features and trained with the InfoNCE loss. Evaluated over 10 random seeds for a single subject, the retrieval model achieves a mean final-epoch Top-1 accuracy of 86.30% and Top-5 accuracy of 98.55%. For reconstruction, we implement CognitionCapturerPro, which aligns EEG representations to multi-modal CLIP embeddings, including image, text, depth, and edge embeddings, and synthesizes images with SDXL-Turbo conditioned via IP-Adapter. Averaged over 10 seeds, the reconstruction model achieves a CLIP score of 0.903 using ViT-H-14, a CLIP score of 0.870 using ViT-L/14, and an SSIM of 0.409. These results demonstrate the feasibility of decoding rich visual representations from EEG signals using modern multi-modal alignment and generative modeling techniques.
- Abstract(参考訳): 自然視中に記録された脳波信号から視覚刺激をデコードする脳画像合成システムを提案する。
本システムでは,(1)脳波領域に与えられた200の候補のうち正しい刺激像をランク付けする脳波画像検索,(2)脳波画像再構成,(2)知覚刺激と整合した画像を生成する脳波画像検索の2つの課題に対処する。
検索のために,生物にインスパイアされたEVNet機能により改良されたマルチレベルブラーリング手法を実装し,InfoNCE損失をトレーニングした。
1つの対象に対して10以上のランダムな種を評価され、検索モデルは、平均的な最終段階のTop-1精度86.30%、Top-5精度98.55%を達成する。
脳波表現を画像、テキスト、深さ、エッジの埋め込みを含むマルチモーダルCLIP埋め込みに整列するCognitionCapturerProを実装し、IP-Adapterで条件付きSDXL-Turboで画像を合成する。
平均10種以上のCLIPスコアはViT-H-14を用いて0.903、CLIPスコアは0.870、SSIMは0.409である。
これらの結果は、現代のマルチモーダルアライメントと生成モデリング技術を用いて、脳波信号からリッチな視覚表現を復号することが可能であることを示す。
関連論文リスト
- TempRet: Temporal Enhancement and Two-Stage Reranking for CVPR 2026 EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge [71.10535279591527]
我々は,CVPR 2026 EPIC-KITCHENS-100 MIRチャレンジに対して,TempRetと呼ばれるソリューションを提示する。
当社のアプローチは,CLIPベースのデュアルエンコーダのバックボーン上に構築されており,時間的および横断的な課題に対処するための2つの重要なコンポーネントを導入している。
EK-100 MIRベンチマークでは,平均mAPは67.97%,平均nDCGは82.92%であった。
論文 参考訳(メタデータ) (2026-05-23T08:37:39Z) - PixVerve: Advancing Native UHR Image Generation to 100MP with a Large-Scale High-Quality Dataset [93.70328662327375]
テキスト・ツー・イメージ(T2I)モデルは、最近1Kと2Kの解像度で顕著な進歩を遂げている。
超高分解能(UHR)画像生成は、高分解能コンテンツの不足と複雑さのために大きな課題となる。
PixVerve-95Kは、慎重に設計されたデータパイプラインでキュレートされた高品質でオープンソースのUHR T2Iデータセットである。
論文 参考訳(メタデータ) (2026-05-19T17:35:09Z) - Subject-Aware Multi-Granularity Alignment for Zero-Shot EEG-to-Image Retrieval [6.9700202682590024]
ゼロショット脳波画像検索のための主観的マルチグラニュラリティアライメント(SAMGA)フレームワークを提案する。
SAMGAは、まず、事前学習された視覚エンコーダから複数の中間表現を適応的に集約することにより、対象を意識した視覚監視ターゲットを構築する。
THINGS-EEGベンチマークの実験では、提案手法はオブジェクト内設定で91.3%のTop-1と98.8%のTop-5の精度、オブジェクト間設定で34.4%のTop-1と64.8%のTop-5の精度を達成した。
論文 参考訳(メタデータ) (2026-04-20T04:10:30Z) - GViT: Representing Images as Gaussians for Visual Recognition [54.46109876668194]
GVITは従来のピクセルやパッチグリッドの入力表現を捨て、学習可能な2Dガウスのコンパクトなセットを優先する分類フレームワークである。
比較的標準的なViTアーキテクチャを用いて、2次元ガウス入力表現とGVITガイダンスを組み合わせることで、従来のパッチベースのViTの性能と密に一致していることを示す。
論文 参考訳(メタデータ) (2025-06-30T05:44:14Z) - CognitionCapturer: Decoding Visual Stimuli From Human EEG Signal With Multimodal Information [61.1904164368732]
脳波信号の表現にマルチモーダルデータを完全に活用する統合フレームワークであるCognitionCapturerを提案する。
具体的には、CognitionCapturerは、各モダリティに対してモダリティエキスパートを訓練し、EEGモダリティからモダリティ情報を抽出する。
このフレームワークは生成モデルの微調整を一切必要とせず、より多くのモダリティを組み込むように拡張することができる。
論文 参考訳(メタデータ) (2024-12-13T16:27:54Z) - Mind's Eye: Image Recognition by EEG via Multimodal Similarity-Keeping Contrastive Learning [2.087148326341881]
本稿では,ゼロショット脳波画像分類のためのMUltimodal similarity-keeper contrastivE学習フレームワークを提案する。
我々は、脳波信号に適した多変量時系列エンコーダを開発し、正規化コントラスト脳波画像事前学習の有効性を評価する。
本手法は,200方向ゼロショット画像分類において,トップ1の精度が19.3%,トップ5の精度が48.8%の最先端性能を実現する。
論文 参考訳(メタデータ) (2024-06-05T16:42:23Z) - Learning Robust Deep Visual Representations from EEG Brain Recordings [13.768240137063428]
本研究は,脳波に基づく深部表現の頑健な学習を行うための2段階の手法を提案する。
ディープラーニングアーキテクチャを用いて,3つのデータセットにまたがる特徴抽出パイプラインの一般化性を実証する。
本稿では,未知の画像を脳波空間に変換し,近似を用いて再構成する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-10-25T10:26:07Z) - Decoding Natural Images from EEG for Object Recognition [8.411976038504589]
本稿では,脳波信号からの学習画像表現の実現可能性を示すための自己教師型フレームワークを提案する。
我々はトップ1の精度を15.6%、トップ5の精度を42.8%で達成し、200ウェイゼロショットタスクに挑戦する。
これらの発見は、実世界のシナリオにおける神経復号と脳-コンピュータインタフェースの貴重な洞察をもたらす。
論文 参考訳(メタデータ) (2023-08-25T08:05:37Z) - IRGen: Generative Modeling for Image Retrieval [82.62022344988993]
本稿では,画像検索を生成モデルの一種として再フレーミングする新しい手法を提案する。
我々は、イメージを意味単位の簡潔なシーケンスに変換するという技術的課題に対処するため、IRGenと呼ばれるモデルを開発した。
本モデルは,広範に使用されている3つの画像検索ベンチマークと200万件のデータセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-17T17:07:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。