論文の概要: A Data-driven Typology of Vision Models from Integrated Representational Metrics
- arxiv url: http://arxiv.org/abs/2509.21628v1
- Date: Thu, 25 Sep 2025 21:46:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.038048
- Title: A Data-driven Typology of Vision Models from Integrated Representational Metrics
- Title(参考訳): 統合表現指標を用いた視覚モデルのデータ駆動型タイポロジー
- Authors: Jialin Wu, Shreya Saha, Yiqing Bo, Meenakshi Khosla,
- Abstract要約: 大規模ビジョンモデルは、アーキテクチャやトレーニングのパラダイムにおいて大きく異なるが、家族間で表現のどの側面が共有されているかを決定するための原則的な方法が欠如している。
表現的類似度メトリクスの組を活用し、それぞれ異なる顔-幾何学、ユニットチューニング、線形な陰極性、および家族分離性を評価する。
我々は、これらの相補的なファセットを統合するために、マルチオミクス統合にインスパイアされたSimisity Network Fusion(SNF)を適用する。
- 参考スコア(独自算出の注目度): 8.045700364123645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision models differ widely in architecture and training paradigm, yet we lack principled methods to determine which aspects of their representations are shared across families and which reflect distinctive computational strategies. We leverage a suite of representational similarity metrics, each capturing a different facet-geometry, unit tuning, or linear decodability-and assess family separability using multiple complementary measures. Metrics preserving geometry or tuning (e.g., RSA, Soft Matching) yield strong family discrimination, whereas flexible mappings such as Linear Predictivity show weaker separation. These findings indicate that geometry and tuning carry family-specific signatures, while linearly decodable information is more broadly shared. To integrate these complementary facets, we adapt Similarity Network Fusion (SNF), a method inspired by multi-omics integration. SNF achieves substantially sharper family separation than any individual metric and produces robust composite signatures. Clustering of the fused similarity matrix recovers both expected and surprising patterns: supervised ResNets and ViTs form distinct clusters, yet all self-supervised models group together across architectural boundaries. Hybrid architectures (ConvNeXt, Swin) cluster with masked autoencoders, suggesting convergence between architectural modernization and reconstruction-based training. This biology-inspired framework provides a principled typology of vision models, showing that emergent computational strategies-shaped jointly by architecture and training objective-define representational structure beyond surface design categories.
- Abstract(参考訳): 大規模ビジョンモデルは、建築や訓練のパラダイムにおいて大きく異なるが、それらの表現のどの側面が家族間で共有されているかを決定するための原則的な方法が欠けている。
表現的類似度尺度の組を活用し、それぞれ異なる顔-幾何学、単位調律、線形対数可能性、および複数の相補的測度を用いて家族分離性を評価する。
幾何やチューニング(例えばRSA、ソフトマッチング)を保存するメトリクスは強い家族識別をもたらすが、線形予測のような柔軟な写像はより弱い分離を示す。
これらの結果は、幾何学とチューニングは家族固有のシグネチャを持ち、線形にデオード可能な情報はより広範に共有されていることを示している。
これらの相補的なファセットを統合するために、マルチオミクス統合にインスパイアされたSimisity Network Fusion(SNF)を適用する。
SNFは、個々の計量よりもかなりシャープな家族分離を実現し、堅牢な合成シグネチャを生成する。
ResNetsとViTsは異なるクラスタを形成しますが、すべての自己組織化モデルはアーキテクチャの境界を越えてグループ化されます。
マスク付きオートエンコーダを備えたハイブリッドアーキテクチャ(ConvNeXt, Swin)クラスタは、アーキテクチャの近代化と再構築ベースのトレーニングの収束を示唆している。
生物学にインスパイアされたこのフレームワークは、視覚モデルの原則的な型付けを提供し、アーキテクチャと、表面設計カテゴリを超えた客観的-決定的表現構造を訓練することによって、創発的な計算戦略が共同で形成されることを示す。
関連論文リスト
- Geometric Embedding Alignment via Curvature Matching in Transfer Learning [4.739852004969771]
本稿では,複数のモデルを統合型トランスファー学習フレームワークに統合するための新しいアプローチを提案する。
個々のモデルの潜在空間のリッチ曲率を整列することにより、相互関係のアーキテクチャを構築する。
このフレームワークは、多様な情報源からの知識を効果的に集約し、ターゲットタスクのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2025-06-16T00:54:22Z) - Exploring Synergistic Ensemble Learning: Uniting CNNs, MLP-Mixers, and Vision Transformers to Enhance Image Classification [2.907712261410302]
私たちは、異なるアーキテクチャ間の相補性を探求する以前の作業を構築し、改善します。
それぞれのアーキテクチャの整合性を保ち、それらをアンサンブル技術を使って組み合わせます。
この研究の直接的な成果は、ImageNet上の以前の最先端の単一分類ネットワークの精度を上回る分類ネットワークのアンサンブルを作成することである。
論文 参考訳(メタデータ) (2025-04-12T04:32:52Z) - Bayesian Unsupervised Disentanglement of Anatomy and Geometry for Deep Groupwise Image Registration [59.062085785106234]
本稿では,マルチモーダル群画像登録のための一般ベイズ学習フレームワークを提案する。
本稿では,潜在変数の推論手順を実現するために,新しい階層的変分自動符号化アーキテクチャを提案する。
心臓、脳、腹部の医療画像から4つの異なるデータセットを含む,提案された枠組みを検証する実験を行った。
論文 参考訳(メタデータ) (2024-01-04T08:46:39Z) - Enhancing Representations through Heterogeneous Self-Supervised Learning [61.40674648939691]
本稿では,HSSL(Heterogeneous Self-Supervised Learning)を提案する。
HSSLは、構造的変化を伴わない表現学習方式で、ベースモデルに新しい特徴を付与する。
HSSLは、様々な自己教師型メソッドと互換性があり、様々な下流タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-10-08T10:44:05Z) - On the Symmetries of Deep Learning Models and their Internal
Representations [1.418465438044804]
我々は、モデルのファミリーのアーキテクチャから生じる対称性と、そのファミリーの内部データ表現の対称性を結びつけることを目指している。
我々の研究は、ネットワークの対称性が、そのネットワークのデータ表現の対称性に伝播されることを示唆している。
論文 参考訳(メタデータ) (2022-05-27T22:29:08Z) - Hermitian Symmetric Spaces for Graph Embeddings [0.0]
C 上の対称行列空間におけるグラフの連続表現を学ぶ。
これらの空間は双曲部分空間とユークリッド部分空間を同時に認めるリッチな幾何学を提供する。
提案するモデルは, apriori のグラフ特徴を見積もることなく, まったく異なる配置に自動的に適応することができる。
論文 参考訳(メタデータ) (2021-05-11T18:14:52Z) - Tensor Graph Convolutional Networks for Multi-relational and Robust
Learning [74.05478502080658]
本稿では,テンソルで表されるグラフの集合に関連するデータから,スケーラブルな半教師付き学習(SSL)を実現するためのテンソルグラフ畳み込みネットワーク(TGCN)を提案する。
提案アーキテクチャは、標準的なGCNと比較して大幅に性能が向上し、最先端の敵攻撃に対処し、タンパク質間相互作用ネットワーク上でのSSL性能が著しく向上する。
論文 参考訳(メタデータ) (2020-03-15T02:33:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。