論文の概要: Transformer brain encoders explain human high-level visual responses
- arxiv url: http://arxiv.org/abs/2505.17329v1
- Date: Thu, 22 May 2025 22:48:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.721923
- Title: Transformer brain encoders explain human high-level visual responses
- Title(参考訳): トランスフォーマー脳エンコーダによるヒト高レベル視覚応答の解明
- Authors: Hossein Adeli, Minni Sun, Nikolaus Kriegeskorte,
- Abstract要約: 本研究では,高次視覚処理において,レチノトピックな視覚特徴をカテゴリー選択領域に動的にルーティングする方法について検討する。
この計算モチーフは、自然界の観察において脳活動を予測する他の方法よりもはるかに強力であることを示す。
提案手法は,レチノトピックマップからの視覚情報をカテゴリ選択領域への入力内容の関連性に基づいてルーティングする機構モデルを提案する。
- 参考スコア(独自算出の注目度): 0.5917100081691198
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A major goal of neuroscience is to understand brain computations during visual processing in naturalistic settings. A dominant approach is to use image-computable deep neural networks trained with different task objectives as a basis for linear encoding models. However, in addition to requiring tuning a large number of parameters, the linear encoding approach ignores the structure of the feature maps both in the brain and the models. Recently proposed alternatives have focused on decomposing the linear mapping to spatial and feature components but focus on finding static receptive fields for units that are applicable only in early visual areas. In this work, we employ the attention mechanism used in the transformer architecture to study how retinotopic visual features can be dynamically routed to category-selective areas in high-level visual processing. We show that this computational motif is significantly more powerful than alternative methods in predicting brain activity during natural scene viewing, across different feature basis models and modalities. We also show that this approach is inherently more interpretable, without the need to create importance maps, by interpreting the attention routing signal for different high-level categorical areas. Our approach proposes a mechanistic model of how visual information from retinotopic maps can be routed based on the relevance of the input content to different category-selective regions.
- Abstract(参考訳): 神経科学の大きな目標は、視覚処理中の脳の計算を自然主義的に理解することである。
主流のアプローチは、線形符号化モデルの基礎として、異なるタスク目標でトレーニングされたイメージ計算可能なディープニューラルネットワークを使用することである。
しかし、多数のパラメータをチューニングする必要があることに加えて、線形符号化手法は脳とモデルの両方の特徴マップの構造を無視している。
近年,空間的および特徴的成分への線形写像の分解に焦点が当てられているが,初期視覚領域にのみ適用可能な単位に対する静的受容場を見つけることに焦点が当てられている。
本研究では,高次視覚処理において,レチノトピックな視覚特徴をカテゴリー選択領域に動的にルーティングする方法を研究するために,トランスフォーマアーキテクチャで使用されるアテンション機構を用いる。
この計算モチーフは、異なる特徴ベースモデルとモダリティをまたいだ自然界における脳活動の予測において、他の方法よりもはるかに強力であることを示す。
また、この手法は、異なる高次カテゴリ領域の注意ルーティング信号を解釈することにより、重要地図を作成する必要がなく、本質的に解釈可能であることも示している。
提案手法は,レチノトピックマップからの視覚情報をカテゴリ選択領域への入力内容の関連性に基づいてルーティングする機構モデルを提案する。
関連論文リスト
- Convolution goes higher-order: a biologically inspired mechanism empowers image classification [0.8999666725996975]
本稿では,複雑な非線形生物学的視覚処理に着想を得た画像分類手法を提案する。
我々のモデルは、Volterraのような畳み込み演算子の拡張を組み込み、乗法的相互作用をキャプチャする。
私たちの仕事は神経科学とディープラーニングを橋渡しし、より効果的で生物学的にインスパイアされたコンピュータビジョンモデルへの道筋を提供します。
論文 参考訳(メタデータ) (2024-12-09T18:33:09Z) - Decoding Visual Experience and Mapping Semantics through Whole-Brain Analysis Using fMRI Foundation Models [10.615012396285337]
我々は脳全体の活性化マップを組み込むことで視覚過程の理解を高めるアルゴリズムを開発した。
まず,視覚処理を復号化するための最先端手法と比較し,予測意味精度を43%向上させた。
論文 参考訳(メタデータ) (2024-11-11T16:51:17Z) - Brain Mapping with Dense Features: Grounding Cortical Semantic Selectivity in Natural Images With Vision Transformers [5.265058307999745]
本稿では,脳内視覚概念を分離するBrainSAILを紹介する。
BrainSAILは、事前訓練された視覚モデルから意味的に一貫性があり、密集した空間的特徴を利用する。
カテゴリー選択性のある大脳皮質領域におけるBrainSAILの評価を行った。
論文 参考訳(メタデータ) (2024-10-07T17:59:45Z) - Foveated Retinotopy Improves Classification and Localization in CNNs [0.0]
画像分類タスクにおいて,葉柄付き網膜移植が深層畳み込みニューラルネットワーク(CNN)にどのような効果をもたらすかを示す。
以上の結果から,葉状網膜地図は視覚的物体形状に関する暗黙の知識をコードしていることが示唆された。
論文 参考訳(メタデータ) (2024-02-23T18:15:37Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Peripheral Vision Transformer [52.55309200601883]
我々は生物学的にインスパイアされたアプローチを採用し、視覚認識のためのディープニューラルネットワークの周辺視覚をモデル化する。
本稿では,マルチヘッド自己アテンション層に周辺位置エンコーディングを組み込むことにより,トレーニングデータから視覚領域を様々な周辺領域に分割することをネットワークが学べるようにすることを提案する。
大規模画像Netデータセット上でPerViTと呼ばれる提案したネットワークを評価し,マシン知覚モデルの内部動作を体系的に検討した。
論文 参考訳(メタデータ) (2022-06-14T12:47:47Z) - An explainability framework for cortical surface-based deep learning [110.83289076967895]
我々は,皮質表面の深層学習のためのフレームワークを開発した。
まず,表面データに摂動に基づくアプローチを適用した。
我々の説明可能性フレームワークは,重要な特徴とその空間的位置を識別できるだけでなく,信頼性と有効性も示している。
論文 参考訳(メタデータ) (2022-03-15T23:16:49Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Self-Supervised Graph Representation Learning for Neuronal Morphologies [75.38832711445421]
ラベルのないデータセットから3次元神経形態の低次元表現を学習するためのデータ駆動型アプローチであるGraphDINOを提案する。
2つの異なる種と複数の脳領域において、この方法では、専門家による手動の特徴に基づく分類と同程度に形態学的細胞型クラスタリングが得られることを示す。
提案手法は,大規模データセットにおける新しい形態的特徴や細胞型の発見を可能にする可能性がある。
論文 参考訳(メタデータ) (2021-12-23T12:17:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。