論文の概要: Uncovering Brain-Like Hierarchical Patterns in Vision-Language Models through fMRI-Based Neural Encoding
- arxiv url: http://arxiv.org/abs/2510.16870v1
- Date: Sun, 19 Oct 2025 15:11:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.187786
- Title: Uncovering Brain-Like Hierarchical Patterns in Vision-Language Models through fMRI-Based Neural Encoding
- Title(参考訳): fMRIに基づくニューラルエンコーディングによる視覚言語モデルにおける脳様階層パターンの発見
- Authors: Yudan Ren, Xinlong Wang, Kexin Wang, Tian Xia, Zihan Ma, Zhaowei Li, Xiangrong Bi, Xiao Li, Xiaowei He,
- Abstract要約: 人工知能ニューラルネットワーク(ANN)と人間の脳処理の並列性の現在の理解は依然として限られている。
視覚言語モデル(VLM)のマルチモーダル情報処理機構を人間の脳活動のレンズを通して解析する新しいニューロンレベル解析フレームワークを提案する。
- 参考スコア(独自算出の注目度): 34.313883741642066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While brain-inspired artificial intelligence(AI) has demonstrated promising results, current understanding of the parallels between artificial neural networks (ANNs) and human brain processing remains limited: (1) unimodal ANN studies fail to capture the brain's inherent multimodal processing capabilities, and (2) multimodal ANN research primarily focuses on high-level model outputs, neglecting the crucial role of individual neurons. To address these limitations, we propose a novel neuron-level analysis framework that investigates the multimodal information processing mechanisms in vision-language models (VLMs) through the lens of human brain activity. Our approach uniquely combines fine-grained artificial neuron (AN) analysis with fMRI-based voxel encoding to examine two architecturally distinct VLMs: CLIP and METER. Our analysis reveals four key findings: (1) ANs successfully predict biological neurons (BNs) activities across multiple functional networks (including language, vision, attention, and default mode), demonstrating shared representational mechanisms; (2) Both ANs and BNs demonstrate functional redundancy through overlapping neural representations, mirroring the brain's fault-tolerant and collaborative information processing mechanisms; (3) ANs exhibit polarity patterns that parallel the BNs, with oppositely activated BNs showing mirrored activation trends across VLM layers, reflecting the complexity and bidirectional nature of neural information processing; (4) The architectures of CLIP and METER drive distinct BNs: CLIP's independent branches show modality-specific specialization, whereas METER's cross-modal design yields unified cross-modal activation, highlighting the architecture's influence on ANN brain-like properties. These results provide compelling evidence for brain-like hierarchical processing in VLMs at the neuronal level.
- Abstract(参考訳): 脳にインスパイアされた人工知能(AI)は有望な結果を示してきたが、人工ニューラルネットワーク(ANN)と人間の脳処理の並列性の現在の理解は限られている。
これらの制約に対処するため,人間の脳活動のレンズを通して視覚言語モデル(VLM)のマルチモーダル情報処理機構を解明する新しいニューロンレベル分析フレームワークを提案する。
提案手法は,微細な人工ニューロン(AN)解析とfMRIベースのボクセル符号化を一意に組み合わせて,アーキテクチャ的に異なる2つのVLM(CLIPとMETER)について検討する。
分析の結果,(1) 言語,視覚,注意,デフォルトモードを含む生体ニューロン(BN) 活動の予測,共有表現機構の実証,(2) 神経表現の重複による機能的冗長性の証明,(2) 脳のフォールトトレラントおよび協調情報処理機構のミラー化,(3) 神経情報処理の複雑で双方向的な性質を反映したBN,(4) CLIP と METER のアーキテクチャは,異なる BN を駆動する。
これらの結果は、ニューロンレベルでのVLMにおける脳様階層的処理の有力な証拠となる。
関連論文リスト
- Application of an attention-based CNN-BiLSTM framework for in vivo two-photon calcium imaging of neuronal ensembles: decoding complex bilateral forelimb movements from unilateral M1 [0.511850618931844]
マルチスケール脳ネットワークからの運動などの復号化は、神経科学の中心的な目的である。
本研究では,注目度に基づくCNN-BiLSTMモデルであるハイブリッドディープラーニングフレームワークを用いて,熟練した複雑な前肢の動きをデコードする。
両前肢の複雑な運動は片側M1ニューロンのアンサンブルから正確に復号できることが示唆された。
論文 参考訳(メタデータ) (2025-04-23T17:43:00Z) - Brain-like Functional Organization within Large Language Models [58.93629121400745]
人間の脳は長い間人工知能(AI)の追求にインスピレーションを与えてきた
最近のニューロイメージング研究は、人工ニューラルネットワーク(ANN)の計算的表現と、人間の脳の刺激に対する神経反応との整合性の説得力のある証拠を提供する。
本研究では、人工ニューロンのサブグループと機能的脳ネットワーク(FBN)を直接結合することで、このギャップを埋める。
このフレームワークはANサブグループをFBNにリンクし、大きな言語モデル(LLM)内で脳に似た機能的組織を記述できる。
論文 参考訳(メタデータ) (2024-10-25T13:15:17Z) - Enhancing learning in spiking neural networks through neuronal heterogeneity and neuromodulatory signaling [52.06722364186432]
人工ニューラルネットワーク(ANN)の強化のための生物学的インフォームドフレームワークを提案する。
提案したデュアルフレームアプローチは、多様なスパイキング動作をエミュレートするためのスパイキングニューラルネットワーク(SNN)の可能性を強調している。
提案手法は脳にインスパイアされたコンパートメントモデルとタスク駆動型SNN, バイオインスピレーション, 複雑性を統合している。
論文 参考訳(メタデータ) (2024-07-05T14:11:28Z) - BrainMAE: A Region-aware Self-supervised Learning Framework for Brain Signals [11.030708270737964]
本稿では,fMRI時系列データから直接表現を学習するBrain Masked Auto-Encoder(BrainMAE)を提案する。
BrainMAEは、4つの異なる下流タスクにおいて、確立されたベースラインメソッドをかなりのマージンで一貫して上回っている。
論文 参考訳(メタデータ) (2024-06-24T19:16:24Z) - Interpretable Spatio-Temporal Embedding for Brain Structural-Effective Network with Ordinary Differential Equation [56.34634121544929]
本研究では,まず動的因果モデルを用いて脳効果ネットワークを構築する。
次に、STE-ODE(Spatio-Temporal Embedding ODE)と呼ばれる解釈可能なグラフ学習フレームワークを導入する。
このフレームワークは、構造的および効果的なネットワーク間の動的相互作用を捉えることを目的とした、特異的に設計されたノード埋め込み層を含んでいる。
論文 参考訳(メタデータ) (2024-05-21T20:37:07Z) - Multimodal foundation models are better simulators of the human brain [65.10501322822881]
1500万の画像テキストペアを事前訓練した,新たに設計されたマルチモーダル基礎モデルを提案する。
視覚的エンコーダも言語的エンコーダもマルチモーダルで訓練され,脳に近いことが判明した。
論文 参考訳(メタデータ) (2022-08-17T12:36:26Z) - Functional2Structural: Cross-Modality Brain Networks Representation
Learning [55.24969686433101]
脳ネットワーク上のグラフマイニングは、臨床表現型および神経変性疾患のための新しいバイオマーカーの発見を促進する可能性がある。
本稿では,Deep Signed Brain Networks (DSBN) と呼ばれる新しいグラフ学習フレームワークを提案する。
臨床表現型および神経変性疾患予測の枠組みを,2つの独立した公開データセットを用いて検証した。
論文 参考訳(メタデータ) (2022-05-06T03:45:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。