論文の概要: Seeing Through the Brain: New Insights from Decoding Visual Stimuli with fMRI
- arxiv url: http://arxiv.org/abs/2510.16196v1
- Date: Fri, 17 Oct 2025 20:18:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.893291
- Title: Seeing Through the Brain: New Insights from Decoding Visual Stimuli with fMRI
- Title(参考訳): 脳を通して見る:fMRIで視覚刺激をデコードする新たな視点
- Authors: Zheng Huang, Enpei Zhang, Yinghao Cai, Weikang Qiu, Carl Yang, Elynn Chen, Xiang Zhang, Rex Ying, Dawei Zhou, Yujun Yan,
- Abstract要約: 我々は、fMRI信号が、視覚ベースの空間や共同テキスト画像空間よりも、言語モデルのテキスト空間によく似ていることを示す。
視覚刺激再構成のためのメディア間表現として,fMRI sIgnals を構造化テキスト空間に投影するモデル PRISM を提案する。
- 参考スコア(独自算出の注目度): 39.952672554797125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding how the brain encodes visual information is a central challenge in neuroscience and machine learning. A promising approach is to reconstruct visual stimuli, essentially images, from functional Magnetic Resonance Imaging (fMRI) signals. This involves two stages: transforming fMRI signals into a latent space and then using a pretrained generative model to reconstruct images. The reconstruction quality depends on how similar the latent space is to the structure of neural activity and how well the generative model produces images from that space. Yet, it remains unclear which type of latent space best supports this transformation and how it should be organized to represent visual stimuli effectively. We present two key findings. First, fMRI signals are more similar to the text space of a language model than to either a vision based space or a joint text image space. Second, text representations and the generative model should be adapted to capture the compositional nature of visual stimuli, including objects, their detailed attributes, and relationships. Building on these insights, we propose PRISM, a model that Projects fMRI sIgnals into a Structured text space as an interMediate representation for visual stimuli reconstruction. It includes an object centric diffusion module that generates images by composing individual objects to reduce object detection errors, and an attribute relationship search module that automatically identifies key attributes and relationships that best align with the neural activity. Extensive experiments on real world datasets demonstrate that our framework outperforms existing methods, achieving up to an 8% reduction in perceptual loss. These results highlight the importance of using structured text as the intermediate space to bridge fMRI signals and image reconstruction.
- Abstract(参考訳): 脳がどのように視覚情報をエンコードするかを理解することは、神経科学と機械学習における中心的な課題である。
有望なアプローチは、機能的磁気共鳴イメージング(fMRI)信号から視覚刺激(基本的に画像)を再構成することである。
fMRI信号を潜在空間に変換し、事前訓練された生成モデルを使って画像を再構成する。
再構成の品質は、潜在空間が神経活動の構造とどのように類似しているかと、生成モデルがその空間から画像を生成するかに依存する。
しかし、どの潜在空間がこの変換を最も支持するか、また視覚刺激を効果的に表現するためにどのように組織化されるべきなのかは、まだ不明である。
主な発見は2つある。
まず、fMRI信号は、視覚ベースの空間や共同テキスト画像空間よりも、言語モデルのテキスト空間に近い。
第二に、テキスト表現と生成モデルは、対象、詳細な属性、関係性を含む視覚刺激の構成的性質を捉えるために適応されるべきである。
これらの知見に基づいて、視覚刺激再構成のためのメディア間表現として、fMRI sIgnals を構造化テキスト空間に投影するモデル PRISM を提案する。
オブジェクト検出エラーを低減するために個々のオブジェクトを構成して画像を生成するオブジェクト中心拡散モジュールと、神経活動に最も適した重要な属性と関係を自動的に識別する属性関係探索モジュールを含む。
実世界のデータセットに対する大規模な実験により、我々のフレームワークは既存の手法よりも優れており、知覚的損失の最大8%の削減を実現している。
これらの結果は、fMRI信号と画像再構成をブリッジする中間空間として構造化テキストを使用することの重要性を強調している。
関連論文リスト
- Perception Activator: An intuitive and portable framework for brain cognitive exploration [19.851643249367108]
干渉条件としてfMRI表現を用いる実験フレームワークを開発した。
オブジェクト検出とインスタンス分割タスクにおける下流性能と中間的特徴の変化をfMRI情報の有無で比較した。
以上の結果から,fMRIには多目的セマンティック・キューが豊富に含まれていることが証明された。
論文 参考訳(メタデータ) (2025-07-03T04:46:48Z) - Brain-Streams: fMRI-to-Image Reconstruction with Multi-modal Guidance [3.74142789780782]
現代のLCDは、構造的かつ意味論的に妥当な画像生成のためのマルチモーダルガイダンスをいかに取り入れているかを示す。
Brain-StreamsはfMRI信号を脳の領域から適切な埋め込みにマッピングする。
我々は,実fMRIデータセットを用いて,Brain-Streamsの定量的および定性的に再構成能力を検証する。
論文 参考訳(メタデータ) (2024-09-18T16:19:57Z) - MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。
このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。
実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - MindDiffuser: Controlled Image Reconstruction from Human Brain Activity
with Semantic and Structural Diffusion [7.597218661195779]
我々はMindDiffuserと呼ばれる2段階の画像再構成モデルを提案する。
ステージ1では、VQ-VAE潜在表現とfMRIからデコードされたCLIPテキスト埋め込みが安定拡散される。
ステージ2では、fMRIからデコードされたCLIP視覚特徴を監視情報として利用し、バックパゲーションによりステージ1でデコードされた2つの特徴ベクトルを継続的に調整し、構造情報を整列させる。
論文 参考訳(メタデータ) (2023-08-08T13:28:34Z) - Controllable Mind Visual Diffusion Model [58.83896307930354]
脳信号の可視化は、人間の視覚システムとコンピュータビジョンモデルの間の重要なインターフェースとして機能する活発な研究領域として登場した。
我々は、制御可能なマインドビジュアルモデル拡散(CMVDM)と呼ばれる新しいアプローチを提案する。
CMVDMは属性アライメントとアシスタントネットワークを用いてfMRIデータから意味情報とシルエット情報を抽出する。
そして、制御モデルを利用して抽出した情報を画像合成に活用し、セマンティクスやシルエットの観点から視覚刺激によく似た画像を生成する。
論文 参考訳(メタデータ) (2023-05-17T11:36:40Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z) - Mind Reader: Reconstructing complex images from brain activities [16.78619734818198]
我々はfMRI(機能的磁気共鳴画像)信号から複雑な画像刺激を再構成することに集中する。
単一の物体や単純な形状で画像を再構成する従来の研究とは異なり、本研究は意味論に富んだイメージ刺激を再構成することを目的としている。
脳の信号を直接画像に翻訳するよりも、追加のテキストモダリティを組み込むことは、再建問題にとって有益である。
論文 参考訳(メタデータ) (2022-09-30T06:32:46Z) - Facial Image Reconstruction from Functional Magnetic Resonance Imaging
via GAN Inversion with Improved Attribute Consistency [5.705640492618758]
我々はfMRIデータから顔画像を再構成する新しい枠組みを提案する。
提案手法は,(1)fMRIデータから明瞭な顔画像の再構成,(2)意味的特徴の一貫性の維持という2つの目標を達成する。
論文 参考訳(メタデータ) (2022-07-03T11:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。