論文の概要: Sparse Autoencoders Bridge The Deep Learning Model and The Brain
- arxiv url: http://arxiv.org/abs/2506.11123v1
- Date: Tue, 10 Jun 2025 06:35:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.48635
- Title: Sparse Autoencoders Bridge The Deep Learning Model and The Brain
- Title(参考訳): スパースオートエンコーダはディープラーニングモデルと脳を橋渡しする
- Authors: Ziming Mao, Jia Xu, Zeqi Zheng, Haofang Zheng, Dabing Sheng, Yaochu Jin, Guoyuan Yang,
- Abstract要約: SAE-BrainMapは、ディープラーニングの視覚モデル表現とボクセルレベルのfMRI応答を一致させる新しいフレームワークである。
ViT-B/16$_CLIP$は、初期層で高レベルなセマンティック情報を生成するために低レベルな情報を利用する傾向がある。
我々の結果は、ディープニューラルネットワークと人間の視覚野の間に直接、下流でタスクのない橋を架け、モデル解釈可能性に関する新たな洞察を提供する。
- 参考スコア(独自算出の注目度): 18.058358411706052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present SAE-BrainMap, a novel framework that directly aligns deep learning visual model representations with voxel-level fMRI responses using sparse autoencoders (SAEs). First, we train layer-wise SAEs on model activations and compute the correlations between SAE unit activations and cortical fMRI signals elicited by the same natural image stimuli with cosine similarity, revealing strong activation correspondence (maximum similarity up to 0.76). Depending on this alignment, we construct a voxel dictionary by optimally assigning the most similar SAE feature to each voxel, demonstrating that SAE units preserve the functional structure of predefined regions of interest (ROIs) and exhibit ROI-consistent selectivity. Finally, we establish fine-grained hierarchical mapping between model layers and the human ventral visual pathway, also by projecting voxel dictionary activations onto individual cortical surfaces, we visualize the dynamic transformation of the visual information in deep learning models. It is found that ViT-B/16$_{CLIP}$ tends to utilize low-level information to generate high-level semantic information in the early layers and reconstructs the low-dimension information later. Our results establish a direct, downstream-task-free bridge between deep neural networks and human visual cortex, offering new insights into model interpretability.
- Abstract(参考訳): SAE-BrainMapは、深層学習の視覚モデル表現と、スパースオートエンコーダ(SAE)を用いたボクセルレベルのfMRI応答を直接整列する新しいフレームワークである。
まず,モデルアクティベーションに関するレイヤワイズSAEを訓練し,同一の自然なイメージ刺激とコサイン類似性によって引き起こされる皮質fMRI信号とSAE単位アクティベーションの相関を計算し,強いアクティベーション対応(最大0.76まで)を明らかにした。
このアライメントに応じて、各ボクセルに最もよく似たSAE特徴を最適に割り当てることにより、ボクセル辞書を構築し、SAE単位が予め定義された関心領域(ROI)の機能的構造を保持し、ROIに一貫性のある選択性を示すことを示す。
最後に,モデル層と人間の腹側視覚経路の微細な階層的マッピングを確立するとともに,ブラクセル辞書のアクティベーションを個々の皮質表面に投影することにより,深層学習モデルにおける視覚情報の動的変換を可視化する。
ViT-B/16$_{CLIP}$は、初期層における高レベルな意味情報を生成するために低レベル情報を利用する傾向があり、後で低次元情報を再構築する。
我々の結果は、ディープニューラルネットワークと人間の視覚野の間に直接、下流でタスクのない橋を架け、モデル解釈可能性に関する新たな洞察を提供する。
関連論文リスト
- Meta-Learning an In-Context Transformer Model of Human Higher Visual Cortex [5.283925904540581]
BraInCoRLは、いくつかの例からボクセルワイドな神経応答を予測するために、コンテキスト内学習を使用している。
我々は、BraInCoRLが、既存のボクセルワイドエンコーダ設計を低データ方式で一貫して上回っていることを示す。
BraInCoRLは、意味的に関連する刺激に参加することによって、高次視覚野における神経信号のより良い解釈性を促進する。
論文 参考訳(メタデータ) (2025-05-21T17:59:41Z) - Interpretable Spatio-Temporal Embedding for Brain Structural-Effective Network with Ordinary Differential Equation [56.34634121544929]
本研究では,まず動的因果モデルを用いて脳効果ネットワークを構築する。
次に、STE-ODE(Spatio-Temporal Embedding ODE)と呼ばれる解釈可能なグラフ学習フレームワークを導入する。
このフレームワークは、構造的および効果的なネットワーク間の動的相互作用を捉えることを目的とした、特異的に設計されたノード埋め込み層を含んでいる。
論文 参考訳(メタデータ) (2024-05-21T20:37:07Z) - Joint-Embedding Masked Autoencoder for Self-supervised Learning of Dynamic Functional Connectivity from the Human Brain [16.62883475350025]
グラフニューラルネットワーク(GNN)は、人間の脳ネットワークと表現型を区別するための動的機能接続の学習において、有望であることを示している。
本稿では,計算機ビジョンにおけるJEPA(Joint Embedding Predictive Architecture)からインスピレーションを得た,時空間連成型自動エンコーダ(ST-JEMA)について紹介する。
論文 参考訳(メタデータ) (2024-03-11T04:49:41Z) - Controllable Mind Visual Diffusion Model [58.83896307930354]
脳信号の可視化は、人間の視覚システムとコンピュータビジョンモデルの間の重要なインターフェースとして機能する活発な研究領域として登場した。
我々は、制御可能なマインドビジュアルモデル拡散(CMVDM)と呼ばれる新しいアプローチを提案する。
CMVDMは属性アライメントとアシスタントネットワークを用いてfMRIデータから意味情報とシルエット情報を抽出する。
そして、制御モデルを利用して抽出した情報を画像合成に活用し、セマンティクスやシルエットの観点から視覚刺激によく似た画像を生成する。
論文 参考訳(メタデータ) (2023-05-17T11:36:40Z) - Insights on Neural Representations for End-to-End Speech Recognition [28.833851817220616]
エンドツーエンド自動音声認識(ASR)モデルは、一般化された音声表現を学習することを目的としている。
相関解析手法を用いたネットワーク類似性の調査は、エンド・ツー・エンドASRモデルでは行われていない。
本稿では,CNN,LSTM,Transformerをベースとしたトレーニングにおいて,レイヤ間の内部ダイナミクスを解析し,検討する。
論文 参考訳(メタデータ) (2022-05-19T10:19:32Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。