論文の概要: Disentangling the Factors of Convergence between Brains and Computer Vision Models
- arxiv url: http://arxiv.org/abs/2508.18226v1
- Date: Mon, 25 Aug 2025 17:23:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.885906
- Title: Disentangling the Factors of Convergence between Brains and Computer Vision Models
- Title(参考訳): 脳とコンピュータビジョンモデルとの収束要因の解明
- Authors: Joséphine Raugel, Marc Szafraniec, Huy V. Vo, Camille Couprie, Patrick Labatut, Piotr Bojanowski, Valentin Wyart, Jean-Rémi King,
- Abstract要約: 我々は、人間中心の画像で訓練された最大のDINOv3モデルが、最も高い脳相似性に達することを示した。
これらの発見は、人工ニューラルネットワークが世界をどのように人間として見るかという、アーキテクチャと経験の間の相互作用を歪めている。
- 参考スコア(独自算出の注目度): 11.560007214914465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many AI models trained on natural images develop representations that resemble those of the human brain. However, the factors that drive this brain-model similarity remain poorly understood. To disentangle how the model, training and data independently lead a neural network to develop brain-like representations, we trained a family of self-supervised vision transformers (DINOv3) that systematically varied these different factors. We compare their representations of images to those of the human brain recorded with both fMRI and MEG, providing high resolution in spatial and temporal analyses. We assess the brain-model similarity with three complementary metrics focusing on overall representational similarity, topographical organization, and temporal dynamics. We show that all three factors - model size, training amount, and image type - independently and interactively impact each of these brain similarity metrics. In particular, the largest DINOv3 models trained with the most human-centric images reach the highest brain-similarity. This emergence of brain-like representations in AI models follows a specific chronology during training: models first align with the early representations of the sensory cortices, and only align with the late and prefrontal representations of the brain with considerably more training. Finally, this developmental trajectory is indexed by both structural and functional properties of the human cortex: the representations that are acquired last by the models specifically align with the cortical areas with the largest developmental expansion, thickness, least myelination, and slowest timescales. Overall, these findings disentangle the interplay between architecture and experience in shaping how artificial neural networks come to see the world as humans do, thus offering a promising framework to understand how the human brain comes to represent its visual world.
- Abstract(参考訳): 自然画像に基づいて訓練された多くのAIモデルは、人間の脳に似た表現を発達させる。
しかし、この脳-モデル類似性を促進する要因はいまだに理解されていない。
モデル,トレーニング,データを独立してニューラルネットワークに導いて脳のような表現を発達させる方法について,これらの要因を体系的に変化させた自己監督型視覚変換器(DINOv3)のファミリーを訓練した。
画像の表現をfMRIとMEGの両方で記録されたヒト脳と比較し、空間的・時間的分析において高分解能を提供する。
脳-モデル類似度を3つの相補的指標で評価し,全体的表現類似度,地形的構造,時間的ダイナミクスに着目した。
モデルのサイズ、トレーニング量、イメージタイプという3つの要因が、それぞれ独立して、インタラクティブにこれらの脳の類似度指標に影響を与えることを示す。
特に、人間中心の画像で訓練された最大のDINOv3モデルは、脳の相似性が最も高い。
このAIモデルにおける脳に似た表現の出現は、トレーニング中の特定の時系列に従っている。
最後に、この発達軌跡は、ヒト大脳皮質の構造的特性と機能的特性の両方によって索引付けされる: モデルによって最後に取得された表現は、最も大きな発達拡大、厚み、最小ミエリン化、最も遅い時間スケールの皮質領域と特異的に一致している。
全体として、これらの発見は、人間の世界を見るために人工ニューラルネットワークがどう現れるかというアーキテクチャと経験の相互作用を混乱させ、人間の脳が視覚世界を表現するためにどのように現れるかを理解するための、有望な枠組みを提供する。
関連論文リスト
- Convergent transformations of visual representation in brains and models [0.0]
認知神経科学における根本的な疑問は、視覚的知覚(外界の構造や脳の内部構造)をどう形成するかである。
人間の視覚と人工視覚の両方において、外界の構造によって駆動される視覚的エンコーディングのための収束した計算解を示す。
論文 参考訳(メタデータ) (2025-07-18T14:13:54Z) - Voxel-Level Brain States Prediction Using Swin Transformer [65.9194533414066]
本稿では, 4D Shifted Window (Swin) Transformer をエンコーダとして用い, 時間的情報を効率よく学習し, 畳み込みデコーダを用いて入力fMRIデータと同じ空間的, 時間的解像度で脳状態の予測を可能にするアーキテクチャを提案する。
前回の23.04s fMRI時系列に基づいて7.2sの安静時脳活動を予測すると,高い精度が得られた。
これは、人間の脳の時間的構造が高解像度でSwin Transformerモデルによって学習できることを示す有望な証拠である。
論文 参考訳(メタデータ) (2025-06-13T04:14:38Z) - Brain-like Functional Organization within Large Language Models [58.93629121400745]
人間の脳は長い間人工知能(AI)の追求にインスピレーションを与えてきた
最近のニューロイメージング研究は、人工ニューラルネットワーク(ANN)の計算的表現と、人間の脳の刺激に対する神経反応との整合性の説得力のある証拠を提供する。
本研究では、人工ニューロンのサブグループと機能的脳ネットワーク(FBN)を直接結合することで、このギャップを埋める。
このフレームワークはANサブグループをFBNにリンクし、大きな言語モデル(LLM)内で脳に似た機能的組織を記述できる。
論文 参考訳(メタデータ) (2024-10-25T13:15:17Z) - Knowledge-Guided Prompt Learning for Lifespan Brain MR Image Segmentation [53.70131202548981]
本稿では,脳MRIにKGPL(Knowledge-Guided Prompt Learning)を用いた2段階のセグメンテーションフレームワークを提案する。
具体的には,大規模データセットと準最適ラベルを用いたトレーニング前セグメンテーションモデルについて述べる。
知識的プロンプトの導入は、解剖学的多様性と生物学的プロセスの間の意味的関係を捉えている。
論文 参考訳(メタデータ) (2024-07-31T04:32:43Z) - Teaching CORnet Human fMRI Representations for Enhanced Model-Brain Alignment [2.035627332992055]
認知神経科学において広く用いられる技術として機能的磁気共鳴イメージング(fMRI)は、視覚知覚の過程における人間の視覚野の神経活動を記録することができる。
本研究では,SOTAビジョンモデルCORnetに基づくモデルであるReAlnet-fMRIを提案する。
fMRIを最適化したReAlnet-fMRIは、CORnetと制御モデルの両方においてヒトの脳との類似性が高く、また、内・内・対モダリティモデル脳(fMRI、EEG)も高い類似性を示した。
論文 参考訳(メタデータ) (2024-07-15T03:31:42Z) - MindBridge: A Cross-Subject Brain Decoding Framework [60.58552697067837]
脳の復号化は、獲得した脳信号から刺激を再構築することを目的としている。
現在、脳の復号化はモデルごとのオブジェクトごとのパラダイムに限られている。
我々は,1つのモデルのみを用いることで,オブジェクト間脳デコーディングを実現するMindBridgeを提案する。
論文 参考訳(メタデータ) (2024-04-11T15:46:42Z) - Psychometry: An Omnifit Model for Image Reconstruction from Human Brain Activity [60.983327742457995]
人間の脳活動から見るイメージを再構築することで、人間とコンピュータのビジョンをBrain-Computer Interfaceを通して橋渡しする。
異なる被験者から得られた機能的磁気共鳴イメージング(fMRI)による画像再構成のための全能モデルであるサイコメトリを考案した。
論文 参考訳(メタデータ) (2024-03-29T07:16:34Z) - Achieving More Human Brain-Like Vision via Human EEG Representational Alignment [1.811217832697894]
非侵襲脳波に基づく人間の脳活動に対応する視覚モデル「Re(presentational)Al(ignment)net」を提案する。
我々の革新的な画像から脳への多層符号化フレームワークは、複数のモデル層を最適化することにより、人間の神経のアライメントを向上する。
我々の発見は、ReAlnetが人工と人間の視覚のギャップを埋め、より脳に似た人工知能システムへの道を歩むブレークスルーを表していることを示唆している。
論文 参考訳(メタデータ) (2024-01-30T18:18:41Z) - Human alignment of neural network representations [28.32452075196472]
ニューラルネットワークで学習した表現と行動応答から推定される人間の心的表現のアライメントに影響を与える要因について検討する。
モデルスケールとアーキテクチャは基本的に人間の行動応答に影響を与えないことがわかった。
食物や動物などの人間の概念はニューラルネットワークによってよく表現されているのに対し、ロイヤルやスポーツ関連の物体はそうではない。
論文 参考訳(メタデータ) (2022-11-02T15:23:16Z) - Functional2Structural: Cross-Modality Brain Networks Representation
Learning [55.24969686433101]
脳ネットワーク上のグラフマイニングは、臨床表現型および神経変性疾患のための新しいバイオマーカーの発見を促進する可能性がある。
本稿では,Deep Signed Brain Networks (DSBN) と呼ばれる新しいグラフ学習フレームワークを提案する。
臨床表現型および神経変性疾患予測の枠組みを,2つの独立した公開データセットを用いて検証した。
論文 参考訳(メタデータ) (2022-05-06T03:45:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。