論文の概要: Mechanistically Interpretable Neural Encoding Reveals Fine-Grained Functional Selectivity in Human Visual Cortex
- arxiv url: http://arxiv.org/abs/2605.16468v1
- Date: Fri, 15 May 2026 11:28:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:46.498376
- Title: Mechanistically Interpretable Neural Encoding Reveals Fine-Grained Functional Selectivity in Human Visual Cortex
- Title(参考訳): 機械的に解釈可能なニューラルエンコーディングはヒト視覚皮質の微細な機能選択性を示す
- Authors: Idan Daniel Grosbard, Mor Geva, Galit Yovel,
- Abstract要約: 人間の視覚を理解するための中心的なゴールは、神経活動を引き起こす視覚的特徴を明らかにすることである。
メカニカル・インタプリタブル・ニューラル(MINE)を導入し,ミリスケール(ボクセルレベル)の動作を駆動する特徴をローカライズする。
MINEは言語対応の画像表現を用いて各ボクセルの応答を予測し、ボクセルのアクティベーションに不可欠な特徴について意味論的に解釈可能な記述を生成する。
- 参考スコア(独自算出の注目度): 23.760723597912776
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A central goal in understanding human vision is to uncover the visual features that drive neuronal activity. A growing body of work has used artificial neural networks as encoding models to predict cortical responses to natural images, revealing the visual content that activates category-selective regions. However, existing approaches are largely correlational and treat the encoder as a black box, leaving open which image features drive each voxel's response. We introduce Mechanistically Interpretable Neural Encoding (MINE), a framework that opens this black box by applying mechanistic-interpretability tools to localize the features within natural images that drive millimeter-scale (voxel-level) activity. MINE predicts each voxel's response using language-aligned image representations, and produces semantically interpretable descriptions of the features critical for the voxel's activation. We further generalize these per-image features into per-voxel functional profiles. To validate the per-image descriptions, we show they are sufficient to generate images that elicit voxel responses matching the responses to the original images, more accurately than images generated from random or low-attribution controls. Moreover, counterfactually inserting or removing the predicted features from images shifts activation in the expected direction, providing causal evidence. Counterfactual editing guided by the per-voxel activation profiles produces even stronger activation shifts, indicating that the profiles faithfully capture each voxel's selectivity. Finally, we apply MINE to well-studied category-selective brain regions, showing it recovers their known categorical preferences while revealing fine-grained unique voxel structure within each region. Overall, our results establish mechanistic interpretability as a path to discover and causally validate fine-grained hypotheses about neural function.
- Abstract(参考訳): 人間の視覚を理解するための中心的なゴールは、神経活動を引き起こす視覚的特徴を明らかにすることである。
成長する研究機関は、自然画像に対する皮質反応を予測するために、ニューラルネットワークを符号化モデルとして使用し、カテゴリー選択領域を活性化する視覚的内容を明らかにした。
しかし、既存のアプローチは主に相関関係にあり、エンコーダをブラックボックスとして扱い、各ボクセルの反応を駆動する画像の特徴が開いている。
メカニスティック・インタプリタブル・ニューラル・エンコーディング(MINE)は,このブラックボックスを開放するフレームワークであり,メカニスティック・インタプリタビリティ・ツールを用いて,ミリスケール(ボクセルレベル)のアクティビティを駆動する自然な画像内の特徴をローカライズする。
MINEは言語対応の画像表現を用いて各ボクセルの応答を予測し、ボクセルのアクティベーションに不可欠な特徴について意味論的に解釈可能な記述を生成する。
さらに,これらの特徴をボクセルごとの機能プロファイルに一般化する。
画像毎の記述を検証するためには、ランダムまたは低属性制御から生成された画像よりも正確に、元の画像に対する応答に一致するボクセル応答を誘発する画像を生成するのに十分であることを示す。
さらに、画像からの予測特徴の挿入や削除は、期待方向のアクティベーションをシフトさせ、因果的証拠を提供する。
ボクセルごとのアクティベーションプロファイルによって導かれる偽の編集は、さらに強力なアクティベーションシフトを生じさせ、プロファイルがそれぞれのボクセルの選択性を忠実に捉えていることを示す。
最後に、MINEをよく研究されたカテゴリー選択脳領域に適用し、既知の分類的嗜好を回復し、各領域の微細な独自のボキセル構造を明らかにした。
本研究の結果は, 神経機能に関する微細な仮説を発見し, 因果的に検証する手段として, 機械的解釈可能性を確立した。
関連論文リスト
- SynBrain: Enhancing Visual-to-fMRI Synthesis via Probabilistic Representation Learning [54.390403684665834]
視覚刺激が皮質反応にどのように変換されるかを理解することは、計算神経科学の基本的な課題である。
視覚的意味論から神経反応への変換を確率的かつ生物学的に解釈可能な方法でシミュレートする生成フレームワークであるSynBrainを提案する。
実験結果から,SynBrainは被写体特異的視覚-fMRI符号化性能において最先端の手法を超越していることが示された。
論文 参考訳(メタデータ) (2025-08-14T03:01:05Z) - Visualizing and Controlling Cortical Responses Using Voxel-Weighted Activation Maximization [0.0]
ディープニューラルネットワーク(DNN)は、人間の視覚系に類似した視覚表現に基づいて訓練されている。
DNNベースの符号化モデルにアクティベーションが適用可能であることを示す。
我々は個々のボクセルで予測応答に最適化された画像を生成する。
論文 参考訳(メタデータ) (2025-06-04T18:48:08Z) - Brain Mapping with Dense Features: Grounding Cortical Semantic Selectivity in Natural Images With Vision Transformers [5.265058307999745]
本稿では,自然界における空間分布型視覚概念とニューラルセレクティビティを関連付ける方法であるBrainSAILを紹介する。
BrainSAILは、事前訓練された視覚モデルから意味的に一貫性があり、密集した空間的特徴を利用する。
カテゴリー選択性のある大脳皮質領域におけるBrainSAILの評価を行った。
論文 参考訳(メタデータ) (2024-10-07T17:59:45Z) - Learning Multimodal Volumetric Features for Large-Scale Neuron Tracing [72.45257414889478]
オーバーセグメントニューロン間の接続を予測し,人間の作業量を削減することを目的としている。
最初はFlyTracingという名前のデータセットを構築しました。
本稿では,高密度なボリュームEM画像の埋め込みを生成するための,新しい接続性を考慮したコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-05T19:45:12Z) - BrainSCUBA: Fine-Grained Natural Language Captions of Visual Cortex Selectivity [6.285481522918523]
そこで本研究では,関心のボクセルを最大に活性化する画像に対して,自然言語記述を生成するデータ駆動方式を提案する。
高次視覚領域にまたがる微細なボクセルレベルのキャプションにより,本手法の有効性を検証した。
そこで我々は,脳内の「個人」表現の分布に関する探索的研究を行った。
論文 参考訳(メタデータ) (2023-10-06T17:59:53Z) - BrainCLIP: Bridging Brain and Visual-Linguistic Representation Via CLIP
for Generic Natural Visual Stimulus Decoding [51.911473457195555]
BrainCLIPはタスクに依存しないfMRIベースの脳復号モデルである。
脳の活動、画像、およびテキストの間のモダリティギャップを埋める。
BrainCLIPは、高い意味的忠実度で視覚刺激を再構築することができる。
論文 参考訳(メタデータ) (2023-02-25T03:28:54Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。