論文の概要: Purrturbed but Stable: Human-Cat Invariant Representations Across CNNs, ViTs and Self-Supervised ViTs
- arxiv url: http://arxiv.org/abs/2511.02404v1
- Date: Tue, 04 Nov 2025 09:35:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.874616
- Title: Purrturbed but Stable: Human-Cat Invariant Representations Across CNNs, ViTs and Self-Supervised ViTs
- Title(参考訳): パーチャブルだが安定:CNN, ViT, 自己監督型 ViT 全体にわたるヒトキャット不変表現
- Authors: Arya Shah, Vaibhav Tripathi,
- Abstract要約: 本研究では,野生動物におけるネコ-ヒト交雑種の表現的アライメントを定量化するベンチマークを提案する。
レイヤワイドなカーネルアライメント(線形およびRBF)とRepresentational similarity Analysisを用いる。
トークンレベルの自己監督は、種別統計を橋渡しする初期段階の特徴を誘導することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Cats and humans differ in ocular anatomy. Most notably, Felis Catus (domestic cats) have vertically elongated pupils linked to ambush predation; yet, how such specializations manifest in downstream visual representations remains incompletely understood. We present a unified, frozen-encoder benchmark that quantifies feline-human cross-species representational alignment in the wild, across convolutional networks, supervised Vision Transformers, windowed transformers, and self-supervised ViTs (DINO), using layer-wise Centered Kernel Alignment (linear and RBF) and Representational Similarity Analysis, with additional distributional and stability tests reported in the paper. Across models, DINO ViT-B/16 attains the most substantial alignment (mean CKA-RBF $\approx0.814$, mean CKA-linear $\approx0.745$, mean RSA $\approx0.698$), peaking at early blocks, indicating that token-level self-supervision induces early-stage features that bridge species-specific statistics. Supervised ViTs are competitive on CKA yet show weaker geometric correspondence than DINO (e.g., ViT-B/16 RSA $\approx0.53$ at block8; ViT-L/16 $\approx0.47$ at block14), revealing depth-dependent divergences between similarity and representational geometry. CNNs remain strong baselines but below plain ViTs on alignment, and windowed transformers underperform plain ViTs, implicating architectural inductive biases in cross-species alignment. Results indicate that self-supervision coupled with ViT inductive biases yields representational geometries that more closely align feline and human visual systems than widely used CNNs and windowed Transformers, providing testable neuroscientific hypotheses about where and how cross-species visual computations converge. We release our code and dataset for reference and reproducibility.
- Abstract(参考訳): 猫とヒトは眼解剖学的に異なる。
最も顕著なのは、フェリス・カタス (Felis Catus) は、縦に伸びた瞳孔が待ち伏せの捕食と結びついているが、下流の視覚的表現にそのような特殊化が如何に現れるかは、まだ完全には理解されていないことである。
本稿では,野生におけるネコとヒトの交叉の表現的アライメント,視覚トランスフォーマー,ウィンドウ型トランスフォーマー,自己監督型ViT(DINO)を,階層的中心カーネルアライメント(線形およびRBF)とRepresentational similarity Analysisを用いて定量化し,さらに分布および安定性試験を行った。
モデル全体では、DINO ViT-B/16は最も実質的なアライメント(平均 CKA-RBF $\approx0.814$、平均 CKA-linear $\approx0.745$、平均 RSA $\approx0.698$)を獲得し、初期ブロックでピークに達し、トークンレベルの自己監督が種別統計をブリッジするアーリーステージ特徴を誘導していることを示している。
スーパービジョンされたViTはCKAで競合するが、DINO(例えば、ViT-B/16 RSA $\approx0.53$ at block8; ViT-L/16 $\approx0.47$ at block14)より弱い幾何学的対応を示す。
CNNは強いベースラインを保っているが、アライメントにおいて平らなViTより下位にあり、ウィンドウ変換器は平らなViTを過小評価し、異種間のアライメントにおいてアーキテクチャ上の帰納バイアスを引き起こす。
その結果、ViT誘導バイアスと結合した自己超越性は、広く使われているCNNや窓ガラストランスフォーマーよりもネコとヒトの視覚系をより緊密に整合させる表現的ジオメトリをもたらし、視覚的計算の場所と方法に関する検証可能な神経科学的仮説を提供することが示された。
参照と再現性のためのコードとデータセットをリリースします。
関連論文リスト
- Query-Efficient Hard-Label Black-Box Attack against Vision Transformers [9.086983253339069]
ビジョントランスフォーマー(ViT)は、ディープ畳み込みニューラルネットワーク(CNN)として敵対的攻撃から同様のセキュリティリスクに直面している
本稿では,ブラックボックスシナリオ下での敵攻撃に対するViTsの脆弱性について検討する。
本稿では,AdvViTと呼ばれる新しいクエリ効率の高いハードラベル逆攻撃手法を提案する。
論文 参考訳(メタデータ) (2024-06-29T10:09:12Z) - Multi-Dimensional Hyena for Spatial Inductive Bias [69.3021852589771]
自己注意に依存しないデータ効率の高い視覚変換器を提案する。
代わりに、非常に最近のハイエナ層の複数の軸に新しい一般化を用いる。
ハイエナN-DをベースとしたハイブリッドなアプローチをViTの第1層に適用し,それに続いて従来の注目層を取り入れた手法により,様々な視覚トランスフォーマーアーキテクチャの性能が一貫して向上することを示す。
論文 参考訳(メタデータ) (2023-09-24T10:22:35Z) - Bridging the Gap Between Vision Transformers and Convolutional Neural
Networks on Small Datasets [91.25055890980084]
小さなデータセットでスクラッチからトレーニングする場合、ビジョントランスフォーマー(ViT)と畳み込みニューラルネットワーク(CNN)の間には、依然として極端なパフォーマンスギャップがある。
本稿では2つの帰納バイアスを緩和する解として動的ハイブリッドビジョン変換器(DHVT)を提案する。
我々のDHVTは、CIFAR-100が85.68%、22.8Mパラメータが82.3%、ImageNet-1Kが24.0Mパラメータが82.3%の軽量モデルで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-12T06:54:39Z) - Semi-supervised Vision Transformers at Scale [93.0621675558895]
視覚変換器(ViT)のための半教師あり学習(SSL)について検討する。
我々は、最初のun/self教師付き事前トレーニングと教師付き微調整、そして最後に半教師付き微調整からなる新しいSSLパイプラインを提案する。
提案手法はSemi-ViTと呼ばれ,半教師付き分類設定においてCNNと同等あるいは同等の性能を達成している。
論文 参考訳(メタデータ) (2022-08-11T08:11:54Z) - Reveal of Vision Transformers Robustness against Adversarial Attacks [13.985121520800215]
この研究は、CNNと比較して異なる$L_p$ベースの敵攻撃に対するViT変異の堅牢性について研究する。
我々は,バニラ ViT やハイブリッド-ViT が CNN よりも堅牢であることを明らかにする分析を行った。
論文 参考訳(メタデータ) (2021-06-07T15:59:49Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。