論文の概要: Characterizing Universal Object Representations Across Vision Models
- arxiv url: http://arxiv.org/abs/2605.13675v1
- Date: Wed, 13 May 2026 15:34:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.137308
- Title: Characterizing Universal Object Representations Across Vision Models
- Title(参考訳): 視覚モデルを用いたユニバーサルオブジェクト表現のキャラクタリゼーション
- Authors: Florian P. Mahner, Johannes Roth, Ka Chun Lam, Michael F. Bonner, Francisco Pereira, Martin N. Hebart,
- Abstract要約: 異なるアーキテクチャ、目的、データセットでトレーニングされたディープニューラルネットワークは、同様の視覚表現に収束するように報告されている。
162種類の視覚モデルのオブジェクト類似性構造を,非負次元の小さな集合に分解する。
普遍的次元とモデル固有の次元を決定するために、各次元がモデル全体でどれだけ頻繁に出現するかを推定する。
- 参考スコア(独自算出の注目度): 1.6910339186280912
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks trained with different architectures, objectives, and datasets have been reported to converge on similar visual representations. However, what remains unknown is which visual properties models actually converge on and which factors may underlie this convergence. To address this, we decompose the object similarity structure of 162 diverse vision models into a small set of non-negative dimensions. To determine universal versus model-specific dimensions, we then estimate how often each dimension reappears across models. In contrast to model-specific dimensions, universal dimensions are more interpretable and more strongly driven by conceptual image properties, indicating the relevance of interpretability and semantic content as implicit factors driving universality across models. Differences in architecture, objective function, training data, model size, and model performance do not explain the emergence of universal dimensions. However, models with more universal dimensions also better predict macaque IT activity and human similarity judgments, suggesting that universality reflects representations relevant to biological vision. These findings have important implications for understanding the emergent representations underlying deep neural network models and their alignment with biological vision.
- Abstract(参考訳): 異なるアーキテクチャ、目的、データセットでトレーニングされたディープニューラルネットワークは、同様の視覚表現に収束するように報告されている。
しかし、どの視覚特性モデルが実際に収束しているか、どの因子がこの収束を弱めるかは、まだ不明である。
これを解決するために、162の多様な視覚モデルのオブジェクト類似性構造を、小さな非負次元の集合に分解する。
普遍的次元とモデル固有の次元を決定するために、各次元がモデル全体でどれだけ頻繁に出現するかを推定する。
モデル固有の次元とは対照的に、普遍次元は概念的イメージ特性によってより解釈可能で強く駆動され、モデル全体の普遍性を駆動する暗黙的な要因として解釈可能性と意味的内容の関連性を示す。
アーキテクチャ、客観的関数、トレーニングデータ、モデルサイズ、モデルパフォーマンスの違いは、普遍次元の出現を説明するものではない。
しかし、より普遍的な次元を持つモデルは、マカクなIT活動と人間の類似性判断をよりよく予測し、普遍性は生物学的視覚に関連する表現を反映していることを示唆している。
これらの知見は、ディープニューラルネットワークモデルに基づく創発的表現と、生物学的ビジョンとの整合性を理解する上で重要な意味を持つ。
関連論文リスト
- Local Intrinsic Dimension of Representations Predicts Alignment and Generalization in AI Models and Human Brain [14.072972213206524]
近年の研究では、より強い一般化を持つニューラルネットワークは、互いに高い表現的アライメントを示す傾向があることが判明している。
より強力な一般化モデルもまた、人間の神経活動とより強く一致していることを示す。
これらの関係は、学習された表現の単一の幾何学的性質、すなわち埋め込みの局所内在次元によって説明できる。
論文 参考訳(メタデータ) (2026-01-30T08:54:59Z) - Investigating Fine- and Coarse-grained Structural Correspondences Between Deep Neural Networks and Human Object Image Similarity Judgments Using Unsupervised Alignment [0.14999444543328289]
我々は、Gromov-Wasserstein Optimal Transportに基づく教師なしアライメント手法を用いて、人間とモデルオブジェクトの表現を比較する。
CLIPでトレーニングされたモデルは、人間のオブジェクト表現と強い微粒化と粗粒化のマッチングを一貫して達成している。
この結果から,正確な対象表現の獲得における言語情報の役割について,新たな知見が得られた。
論文 参考訳(メタデータ) (2025-05-22T09:06:06Z) - When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Linking Robustness and Generalization: A k* Distribution Analysis of Concept Clustering in Latent Space for Vision Models [56.89974470863207]
本稿では,局所的近傍解析手法であるk*分布を用いて,個々の概念のレベルで学習された潜伏空間について検討する。
視覚モデルの潜在空間の全体的品質を評価するために、個々の概念を解釈するための歪度に基づく真および近似メトリクスを導入する。
論文 参考訳(メタデータ) (2024-08-17T01:43:51Z) - Adaptive Contextual Perception: How to Generalize to New Backgrounds and
Ambiguous Objects [75.15563723169234]
本研究では,視覚モデルが分布外一般化の文脈をどのように適応的に利用するかを検討する。
1つの設定で優れているモデルは、もう1つの設定で苦労する傾向があります。
生物学的視覚の一般化能力を再現するためには、コンピュータビジョンモデルは背景表現に対して分解対象を持つ必要がある。
論文 参考訳(メタデータ) (2023-06-09T15:29:54Z) - A simple probabilistic neural network for machine understanding [0.0]
本稿では,機械理解のためのモデルとして,確率的ニューラルネットワークと内部表現の固定化について論じる。
内部表現は、それが最大関係の原理と、どのように異なる特徴が組み合わされるかについての最大無知を満たすことを要求して導出する。
このアーキテクチャを持つ学習機械は、パラメータやデータの変化に対する表現の連続性など、多くの興味深い特性を享受している、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-24T13:00:15Z) - Similarity of Neural Architectures using Adversarial Attack Transferability [47.66096554602005]
ニューラルネットワーク間の定量的かつスケーラブルな類似度尺度を設計する。
我々は69の最先端画像ネット分類器を大規模に解析する。
我々の結果は、異なるコンポーネントを持つ多様なニューラルアーキテクチャの開発がなぜ必要かについての洞察を提供する。
論文 参考訳(メタデータ) (2022-10-20T16:56:47Z) - Geometric and Topological Inference for Deep Representations of Complex
Networks [13.173307471333619]
我々は、トポロジと表現の幾何学を強調する統計のクラスを提示する。
モデル選択に使用する場合の感度と特異性の観点から,これらの統計値を評価する。
これらの新しい手法により、脳やコンピューター科学者は、脳やモデルによって学習された動的表現変換を可視化することができる。
論文 参考訳(メタデータ) (2022-03-10T17:14:14Z) - Post-mortem on a deep learning contest: a Simpson's paradox and the
complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。
メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。
本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文 参考訳(メタデータ) (2021-06-01T19:19:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。