論文の概要: Towards Interpretable Visual Decoding with Attention to Brain Representations
- arxiv url: http://arxiv.org/abs/2509.23566v1
- Date: Sun, 28 Sep 2025 01:55:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.293678
- Title: Towards Interpretable Visual Decoding with Attention to Brain Representations
- Title(参考訳): 脳表現に着目した解釈可能なビジュアルデコーディングを目指して
- Authors: Pinyuan Feng, Hossein Adeli, Wenxuan Guo, Fan Cheng, Ethan Hwang, Nikolaus Kriegeskorte,
- Abstract要約: 近年の研究では、複雑な視覚刺激が深部生成モデルを用いて人間の脳活動からデコードできることが示されている。
視覚的デコードフレームワークであるNeuroAdapterを提案する。
本研究は、視覚神経科学のレンズを通して、脳と画像の終末復号化の可能性を強調し、拡散モデルを解釈する方法を確立するものである。
- 参考スコア(独自算出の注目度): 3.254716591226115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has demonstrated that complex visual stimuli can be decoded from human brain activity using deep generative models, helping brain science researchers interpret how the brain represents real-world scenes. However, most current approaches leverage mapping brain signals into intermediate image or text feature spaces before guiding the generative process, masking the effect of contributions from different brain areas on the final reconstruction output. In this work, we propose NeuroAdapter, a visual decoding framework that directly conditions a latent diffusion model on brain representations, bypassing the need for intermediate feature spaces. Our method demonstrates competitive visual reconstruction quality on public fMRI datasets compared to prior work, while providing greater transparency into how brain signals shape the generation process. To this end, we contribute an Image-Brain BI-directional interpretability framework (IBBI) which investigates cross-attention mechanisms across diffusion denoising steps to reveal how different cortical areas influence the unfolding generative trajectory. Our results highlight the potential of end-to-end brain-to-image decoding and establish a path toward interpreting diffusion models through the lens of visual neuroscience.
- Abstract(参考訳): 最近の研究は、複雑な視覚刺激が深層生成モデルを用いて人間の脳活動からデコードできることを示し、脳科学研究者が脳が現実世界のシーンをどのように表現しているかを理解するのに役立つ。
しかし、現在のほとんどのアプローチでは、生成過程を導く前に、脳の信号を中間画像やテキストの特徴空間にマッピングし、最終的な再構成出力に対する異なる脳領域からのコントリビューションの効果を隠蔽している。
本研究では,視覚的デコードフレームワークであるNeuroAdapterを提案する。
提案手法は,脳信号が生成過程をどう形成するかの透明性を高めつつ,公的なfMRIデータセット上での競合的な視覚的再構成品質を示す。
この目的のために,拡散認知段階を横断するクロスアテンション機構を解析し,異なる皮質領域が展開する生成軌道にどのように影響するかを明らかにする画像脳BI方向解釈可能性フレームワーク (IBBI) を寄贈する。
本研究は、視覚神経科学のレンズを通して、脳と画像の終末復号化の可能性を強調し、拡散モデルを解釈する方法を確立するものである。
関連論文リスト
- Image-to-Brain Signal Generation for Visual Prosthesis with CLIP Guided Multimodal Diffusion Models [6.761875482596085]
画像からM/EEGを生成する最初の画像-脳信号フレームワークを提案する。
提案フレームワークは,事前学習したCLIPビジュアルエンコーダと,有意な拡張U-Net拡散モデルからなる。
コンディショニングのための単純な結合に依存する従来の生成モデルとは異なり、我々のクロスアテンションモジュールは視覚的特徴と脳信号表現の間の複雑な相互作用を捉えている。
論文 参考訳(メタデータ) (2025-08-31T10:29:58Z) - MindAligner: Explicit Brain Functional Alignment for Cross-Subject Visual Decoding from Limited fMRI Data [64.92867794764247]
MindAlignerは、限られたfMRIデータからのクロスオブジェクト脳デコーディングのためのフレームワークである。
脳伝達マトリックス(BTM)は、任意の新しい被験者の脳信号を既知の被験者の1人に投射する。
脳機能アライメントモジュールは、異なる視覚刺激下で軟質なクロスオブジェクト脳アライメントを実行するために提案されている。
論文 参考訳(メタデータ) (2025-02-07T16:01:59Z) - BrainMAP: Learning Multiple Activation Pathways in Brain Networks [77.15180533984947]
本稿では,脳ネットワークにおける複数の活性化経路を学習するための新しいフレームワークであるBrainMAPを紹介する。
本フレームワークは,タスクに関わる重要な脳領域の説明的分析を可能にする。
論文 参考訳(メタデータ) (2024-12-23T09:13:35Z) - Decoding Visual Experience and Mapping Semantics through Whole-Brain Analysis Using fMRI Foundation Models [10.615012396285337]
我々は脳全体の活性化マップを組み込むことで視覚過程の理解を高めるアルゴリズムを開発した。
まず,視覚処理を復号化するための最先端手法と比較し,予測意味精度を43%向上させた。
論文 参考訳(メタデータ) (2024-11-11T16:51:17Z) - Decoding Realistic Images from Brain Activity with Contrastive
Self-supervision and Latent Diffusion [29.335943994256052]
ヒトの脳活動から視覚刺激を再構築することは、脳の視覚系を理解する上で有望な機会となる。
機能的磁気共鳴イメージング(fMRI)記録から現実的な画像をデコードする2相フレームワークContrast and Diffuse(CnD)を提案する。
論文 参考訳(メタデータ) (2023-09-30T09:15:22Z) - Brain Captioning: Decoding human brain activity into images and text [1.5486926490986461]
本稿では,脳活動を意味のある画像やキャプションにデコードする革新的な手法を提案する。
提案手法は,最先端画像キャプションモデルを活用し,ユニークな画像再構成パイプラインを組み込んだものである。
生成したキャプションと画像の両方の定量的指標を用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-05-19T09:57:19Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z) - BI AVAN: Brain inspired Adversarial Visual Attention Network [67.05560966998559]
機能的脳活動から直接人間の視覚的注意を特徴付ける脳誘発対人視覚注意ネットワーク(BI-AVAN)を提案する。
本モデルは,人間の脳が監督されていない方法で焦点を絞った映画フレーム内の視覚的物体を識別・発見するために,注意関連・無視対象間の偏りのある競合過程を模倣する。
論文 参考訳(メタデータ) (2022-10-27T22:20:36Z) - Functional2Structural: Cross-Modality Brain Networks Representation
Learning [55.24969686433101]
脳ネットワーク上のグラフマイニングは、臨床表現型および神経変性疾患のための新しいバイオマーカーの発見を促進する可能性がある。
本稿では,Deep Signed Brain Networks (DSBN) と呼ばれる新しいグラフ学習フレームワークを提案する。
臨床表現型および神経変性疾患予測の枠組みを,2つの独立した公開データセットを用いて検証した。
論文 参考訳(メタデータ) (2022-05-06T03:45:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。