論文の概要: Vision CNNs trained to estimate spatial latents learned similar ventral-stream-aligned representations
- arxiv url: http://arxiv.org/abs/2412.09115v2
- Date: Mon, 17 Feb 2025 17:50:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:07:47.005017
- Title: Vision CNNs trained to estimate spatial latents learned similar ventral-stream-aligned representations
- Title(参考訳): 空間潜在者を推定する訓練された視覚CNNは、同様の腹側-腹側整列表現を学習した
- Authors: Yudi Xie, Weichen Huang, Esther Alter, Jeremy Schwartz, Joshua B. Tenenbaum, James J. DiCarlo,
- Abstract要約: 霊長類の腹側視覚ストリームの機能的役割の研究は、伝統的に対象の分類に焦点を当ててきた。
ここでは、別の仮説を探求する: 腹側流は空間的潜伏量の推定に最適化されるか?
数個の空間的遅延を推定するためにトレーニングされたモデルは、数百のカテゴリでトレーニングされたモデルに匹敵するニューラルアライメントスコアを達成できることがわかった。
- 参考スコア(独自算出の注目度): 44.51229445138653
- License:
- Abstract: Studies of the functional role of the primate ventral visual stream have traditionally focused on object categorization, often ignoring -- despite much prior evidence -- its role in estimating "spatial" latents such as object position and pose. Most leading ventral stream models are derived by optimizing networks for object categorization, which seems to imply that the ventral stream is also derived under such an objective. Here, we explore an alternative hypothesis: Might the ventral stream be optimized for estimating spatial latents? And a closely related question: How different -- if at all -- are representations learned from spatial latent estimation compared to categorization? To ask these questions, we leveraged synthetic image datasets generated by a 3D graphic engine and trained convolutional neural networks (CNNs) to estimate different combinations of spatial and category latents. We found that models trained to estimate just a few spatial latents achieve neural alignment scores comparable to those trained on hundreds of categories, and the spatial latent performance of models strongly correlates with their neural alignment. Spatial latent and category-trained models have very similar -- but not identical -- internal representations, especially in their early and middle layers. We provide evidence that this convergence is partly driven by non-target latent variability in the training data, which facilitates the implicit learning of representations of those non-target latents. Taken together, these results suggest that many training objectives, such as spatial latents, can lead to similar models aligned neurally with the ventral stream. Thus, one should not assume that the ventral stream is optimized for object categorization only. As a field, we need to continue to sharpen our measures of comparing models to brains to better understand the functional roles of the ventral stream.
- Abstract(参考訳): 霊長類の腹側視覚ストリームの機能的役割の研究は、伝統的に、物体の位置やポーズのような「空間的な」潜伏者を推定する役割を無視する、しばしば以前の証拠にもかかわらず、対象の分類に焦点を合わせてきた。
ほとんどの主要な腹側流モデルは、対象分類のためのネットワーク最適化によって導出され、これは腹側流もそのような目的の下で導出されていることを示唆している。
ここでは、別の仮説を探求する: 腹側流は空間的潜伏量の推定に最適化されるか?
そして、密接に関連する質問: 分類よりも空間潜在推定から学べる表現は、どう違うのか?
これらの疑問に答えるために、我々は3Dグラフィックエンジンと訓練された畳み込みニューラルネットワーク(CNN)によって生成された合成画像データセットを活用し、空間的およびカテゴリー的潜在者の異なる組み合わせを推定した。
数個の空間的遅延を推定するために訓練されたモデルは、数百のカテゴリーで訓練されたモデルに匹敵する神経的アライメントスコアを達成し、モデルの空間的潜在性能は、その神経的アライメントと強く相関することがわかった。
空間潜在モデルとカテゴリー学習モデルは、特に初期層と中層において、非常によく似ているが、同一ではない。
我々は、この収束が、トレーニングデータにおける非標的潜在変数によって部分的に引き起こされることを示し、これらの非ターゲット潜在変数の表現の暗黙的な学習を容易にする。
これらの結果は、空間的潜伏剤のような多くの訓練目的が、同様のモデルが腹側の流れと神経的に整合していることを示唆している。
したがって、腹側流が対象分類のみに最適化されていると仮定してはならない。
この分野として、私たちは、腹側流の機能的役割をよりよく理解するために、モデルと脳を比較するための措置を引き続き強化する必要があります。
関連論文リスト
- Linking Robustness and Generalization: A k* Distribution Analysis of Concept Clustering in Latent Space for Vision Models [56.89974470863207]
本稿では,局所的近傍解析手法であるk*分布を用いて,個々の概念のレベルで学習された潜伏空間について検討する。
視覚モデルの潜在空間の全体的品質を評価するために、個々の概念を解釈するための歪度に基づく真および近似メトリクスを導入する。
論文 参考訳(メタデータ) (2024-08-17T01:43:51Z) - Tracing Representation Progression: Analyzing and Enhancing Layer-Wise Similarity [20.17288970927518]
本研究では,各変圧器の隠蔽層間の表現の類似性について検討する。
層間の表現が正の相関を示し、層が近づくと類似度が増加する。
浅い層の有効性を向上させるためのアライメント・トレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-06-20T16:41:09Z) - Latent Communication in Artificial Neural Networks [2.5947832846531886]
この論文は神経表現の普遍性と再利用性に焦点を当てている。
我々の研究から得られた顕著な観察は、潜在表現における類似性の出現である。
論文 参考訳(メタデータ) (2024-06-16T17:13:58Z) - Non-Local Latent Relation Distillation for Self-Adaptive 3D Human Pose
Estimation [63.199549837604444]
3次元ポーズ推定アプローチは、強い(2D/3Dポーズ)または弱い(複数ビューまたは深さ)ペアによる監督の異なる形態を利用する。
我々は3Dポーズ学習を,ラベル付きソースドメインから完全に損なわれないターゲットへのタスク知識の転送を目的とした,自己指導型適応問題として捉えた。
我々は、異なる自己適応設定を評価し、標準ベンチマークで最先端の3Dポーズ推定性能を示す。
論文 参考訳(メタデータ) (2022-04-05T03:52:57Z) - On the Viability of Monocular Depth Pre-training for Semantic Segmentation [48.29060171161375]
本研究は,意味的タスクへの下流移動において,幾何学的タスクの事前学習が有効かどうかを考察する。
単分子深度は意味的セグメンテーションのための事前学習の実行可能な形式であり、共通ベースラインの改善によって検証される。
論文 参考訳(メタデータ) (2022-03-26T04:27:28Z) - Improving Neural Predictivity in the Visual Cortex with Gated Recurrent
Connections [0.0]
我々は,腹側視覚ストリームのユビキタスな特徴である横方向のリカレント接続を考慮したアーキテクチャに焦点を移し,適応的受容場を創出することを目指している。
本研究は,我々のアプローチの堅牢性と活性化の生物学的忠実性を高めるために,特定のデータ拡張技術を用いている。
論文 参考訳(メタデータ) (2022-03-22T17:27:22Z) - Learning Dynamics via Graph Neural Networks for Human Pose Estimation
and Tracking [98.91894395941766]
ポーズ検出とは無関係なポーズダイナミクスを学習する新しいオンライン手法を提案する。
具体的には、空間的・時間的情報と視覚的情報の両方を明示的に考慮したグラフニューラルネットワーク(GNN)を通して、このダイナミクスの予測を導出する。
PoseTrack 2017とPoseTrack 2018データセットの実験では、提案手法が人間のポーズ推定とトラッキングタスクの両方において、技術の現状よりも優れた結果が得られることを示した。
論文 参考訳(メタデータ) (2021-06-07T16:36:50Z) - A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。
線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。
以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T17:56:14Z) - Do Saliency Models Detect Odd-One-Out Targets? New Datasets and Evaluations [15.374430656911498]
本研究では,サリエンスの正準例と考えられるシングルトン検出について検討する。
ほぼすべてのサリエンシアルゴリズムは、合成画像や自然画像のシングルトンターゲットに適切に反応しないことを示す。
論文 参考訳(メタデータ) (2020-05-13T20:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。