論文の概要: Versatile Framework with Semantic and Structural guidance for Image Reconstruction from Brain Activity
- arxiv url: http://arxiv.org/abs/2606.00121v1
- Date: Thu, 28 May 2026 09:20:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:27.980579
- Title: Versatile Framework with Semantic and Structural guidance for Image Reconstruction from Brain Activity
- Title(参考訳): 脳活動からの画像再構成のための意味的・構造的ガイダンスを用いたVersatile Framework
- Authors: Yizhuo Lu, Changde Du, Qiongyi Zhou, Liuyun Jiang, Huiguang He,
- Abstract要約: 我々はMindDiffuserと呼ばれる2段階の画像再構成フレームワークを提案する。
ステージ1では、脳反応からデコードされたContrastive Language-Image Pretraining (CLIP)テキスト埋め込みが安定拡散に入力され、予備画像を生成する。
ステージ2では、復号された浅いCLIP視覚特徴を監視信号として使用し、ステージ1からバックプロパゲーションを介して特徴ベクトルを反復的に精製して構造情報を整列させる。
- 参考スコア(独自算出の注目度): 17.625829377712492
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reconstructing visual stimuli from brain recordings has been a meaningful and challenging task in brain decoding. Especially, the achievement of precise and controllable image reconstruction bears great significance in propelling the progress and utilization of brain-computer interfaces. Recent methods, leveraging advances in the power of text-to-image generation models, have reconstructed images that closely approximate complex natural stimuli in terms of semantics (e.g., concepts and objects). However, they struggle to maintain consistency with the original stimuli in fine-grained structural information (e.g., position, orientation and size), which undermines both the controllability and interpretability of the models. To address the aforementioned issues, we propose a two-stage image reconstruction framework, termed MindDiffuser. In Stage 1, Contrastive Language-Image Pretraining (CLIP) text embeddings decoded from brain responses are input into Stable Diffusion, generating a preliminary image containing semantic information. In Stage 2, we use decoded shallow CLIP visual features as supervisory signals, iteratively refining the feature vectors from Stage 1 via backpropagation to align structural information. We conducted extensive experiments on brain response datasets across three modalities (fMRI, EEG, MEG) elicited by visual stimuli, demonstrating that our framework significantly enhances the performance of previous state-of-the-art models, highlighting the effectiveness and versatility of our approach. Spatial and temporal visualization results further support the neurobiological plausibility of our framework, providing guidance for future neural decoding efforts across different brain signal modalities.
- Abstract(参考訳): 脳の記録から視覚刺激を再構築することは、脳の復号化において有意義で挑戦的な課題である。
特に、精密かつ制御可能な画像再構成の達成は、脳-コンピュータインタフェースの進歩と活用を促進する上で非常に重要である。
近年の手法は、テキスト・画像生成モデルの能力の進歩を生かして、意味論(概念や対象など)の観点から、複雑な自然刺激を近似したイメージを再構成している。
しかし、モデルの制御可能性と解釈可能性の両方を損なうような、きめ細かい構造情報(例えば、位置、方向、サイズ)において、元の刺激との整合性を維持するのに苦労する。
上記の課題に対処するため,MindDiffuserと呼ばれる2段階画像再構成フレームワークを提案する。
ステージ1では、脳反応からデコードされたContrastive Language-Image Pretraining (CLIP)テキスト埋め込みが安定拡散に入力され、意味情報を含む予備画像を生成する。
ステージ2では、復号された浅いCLIP視覚特徴を監視信号として使用し、ステージ1からバックプロパゲーションを介して特徴ベクトルを反復的に精製して構造情報を整列させる。
視覚刺激によって誘発される脳反応データセット(fMRI, EEG, MEG)の広範囲な実験を行い、我々のフレームワークは従来の最先端モデルの性能を大幅に向上させ、我々のアプローチの有効性と汎用性を強調した。
空間的および時間的可視化の結果は、我々のフレームワークの神経生物学的妥当性をさらに向上させ、脳の信号モダリティにまたがる未来の神経復号へのガイダンスを提供する。
関連論文リスト
- Brain-Streams: fMRI-to-Image Reconstruction with Multi-modal Guidance [3.74142789780782]
現代のLCDは、構造的かつ意味論的に妥当な画像生成のためのマルチモーダルガイダンスをいかに取り入れているかを示す。
Brain-StreamsはfMRI信号を脳の領域から適切な埋め込みにマッピングする。
我々は,実fMRIデータセットを用いて,Brain-Streamsの定量的および定性的に再構成能力を検証する。
論文 参考訳(メタデータ) (2024-09-18T16:19:57Z) - MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。
このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。
実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - MindBridge: A Cross-Subject Brain Decoding Framework [60.58552697067837]
脳の復号化は、獲得した脳信号から刺激を再構築することを目的としている。
現在、脳の復号化はモデルごとのオブジェクトごとのパラダイムに限られている。
我々は,1つのモデルのみを用いることで,オブジェクト間脳デコーディングを実現するMindBridgeを提案する。
論文 参考訳(メタデータ) (2024-04-11T15:46:42Z) - MindDiffuser: Controlled Image Reconstruction from Human Brain Activity
with Semantic and Structural Diffusion [7.597218661195779]
我々はMindDiffuserと呼ばれる2段階の画像再構成モデルを提案する。
ステージ1では、VQ-VAE潜在表現とfMRIからデコードされたCLIPテキスト埋め込みが安定拡散される。
ステージ2では、fMRIからデコードされたCLIP視覚特徴を監視情報として利用し、バックパゲーションによりステージ1でデコードされた2つの特徴ベクトルを継続的に調整し、構造情報を整列させる。
論文 参考訳(メタデータ) (2023-08-08T13:28:34Z) - Contrast, Attend and Diffuse to Decode High-Resolution Images from Brain
Activities [31.448924808940284]
2相fMRI表現学習フレームワークを提案する。
第1フェーズでは、double-contrastive Mask Auto-encoderを提案してfMRI機能学習者を事前訓練し、識別表現を学習する。
第2フェーズでは、イメージオートエンコーダからのガイダンスで視覚的再構成に最も有用な神経活性化パターンに参加するように、特徴学習者に調整する。
論文 参考訳(メタデータ) (2023-05-26T19:16:23Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z) - BrainCLIP: Bridging Brain and Visual-Linguistic Representation Via CLIP
for Generic Natural Visual Stimulus Decoding [51.911473457195555]
BrainCLIPはタスクに依存しないfMRIベースの脳復号モデルである。
脳の活動、画像、およびテキストの間のモダリティギャップを埋める。
BrainCLIPは、高い意味的忠実度で視覚刺激を再構築することができる。
論文 参考訳(メタデータ) (2023-02-25T03:28:54Z) - Mind Reader: Reconstructing complex images from brain activities [16.78619734818198]
我々はfMRI(機能的磁気共鳴画像)信号から複雑な画像刺激を再構成することに集中する。
単一の物体や単純な形状で画像を再構成する従来の研究とは異なり、本研究は意味論に富んだイメージ刺激を再構成することを目的としている。
脳の信号を直接画像に翻訳するよりも、追加のテキストモダリティを組み込むことは、再建問題にとって有益である。
論文 参考訳(メタデータ) (2022-09-30T06:32:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。