論文の概要: Similarity of Processing Steps in Vision Model Representations
- arxiv url: http://arxiv.org/abs/2601.21621v1
- Date: Thu, 29 Jan 2026 12:24:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.80389
- Title: Similarity of Processing Steps in Vision Model Representations
- Title(参考訳): 視覚モデル表現における処理ステップの類似性
- Authors: Matéo Mahaut, Marco Baroni,
- Abstract要約: 異なるモデルにおける収束表現につながる過程について検討する。
異なるモデルにおける類似した位置にある層は最も類似した表現を持ち、強い差は残る。
CNNとトランスフォーマーベースのモデルも異なる振る舞いをしており、トランスフォーマーモデルは1つの層から次の層への表現にスムーズな変更を適用している。
- 参考スコア(独自算出の注目度): 5.816800536560847
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent literature suggests that the bigger the model, the more likely it is to converge to similar, ``universal'' representations, despite different training objectives, datasets, or modalities. While this literature shows that there is an area where model representations are similar, we study here how vision models might get to those representations--in particular, do they also converge to the same intermediate steps and operations? We therefore study the processes that lead to convergent representations in different models. First, we quantify distance between different model representations at different stages. We follow the evolution of distances between models throughout processing, identifying the processing steps which are most different between models. We find that while layers at similar positions in different models have the most similar representations, strong differences remain. Classifier models, unlike the others, will discard information about low-level image statistics in their final layers. CNN- and transformer-based models also behave differently, with transformer models applying smoother changes to representations from one layer to the next. These distinctions clarify the level and nature of convergence between model representations, and enables a more qualitative account of the underlying processes in image models.
- Abstract(参考訳): 最近の文献では、トレーニングの目的やデータセット、モダリティが異なるにもかかわらず、モデルが大きくなればなるほど、'universal'の表現に収束する可能性が高くなることが示唆されている。
この文献は、モデル表現が類似している領域があることを示しているが、ここではビジョンモデルがそれらの表現にどのように到達するかを研究する。
したがって、異なるモデルにおける収束表現につながる過程を研究する。
まず、異なる段階における異なるモデル表現間の距離を定量化する。
私たちは、処理を通してモデル間の距離を進化させ、モデル間で最も異なる処理ステップを特定します。
異なるモデルにおける類似した位置にある層は最も類似した表現を持つが、強い差は残る。
分類器モデルは、他のものと異なり、最終層で低レベルの画像統計情報を破棄する。
CNNとトランスフォーマーベースのモデルも異なる振る舞いをしており、トランスフォーマーモデルは1つの層から次の層への表現にスムーズな変更を適用している。
これらの区別は、モデル表現間の収束のレベルと性質を明らかにし、画像モデルの基本過程のより質的な説明を可能にする。
関連論文リスト
- When Does Closeness in Distribution Imply Representational Similarity? An Identifiability Perspective [9.578534178372829]
モデル分布間の小さなKullback--Leibler分散は、対応する表現が類似していることを保証するものではないことを証明する。
次に、近接性が表現的類似性を意味する分布距離を定義する。
合成実験において、より広いネットワークは我々の距離に近づき、より類似した表現を持つ分布を学習する。
論文 参考訳(メタデータ) (2025-06-04T09:44:22Z) - Quantifying task-relevant representational similarity using decision variable correlation [6.323629460880451]
決定相関変数(DVC)を用いた2つの観察者(モデルまたは脳)の意思決定戦略の類似性を特徴付ける新しいアプローチを提案する。
本手法は,サルV4/IT記録と画像分類タスクを訓練したモデルを用いて評価する。
モデル-モデル類似度はサル-モンキー類似度に匹敵するが,モデル-キー類似度は一貫して低く,ImageNet-1kの性能向上とともに低下する。
論文 参考訳(メタデータ) (2025-06-02T18:45:05Z) - Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - Understanding Parameter Sharing in Transformers [53.75988363281843]
トランスフォーマーに関するこれまでの研究は、異なるレイヤでパラメータを共有することに集中しており、モデルの深さを増大させることで、限られたパラメータを持つモデルの性能を向上させることができる。
このアプローチの成功は, モデル複雑性の増加により, ごく一部に過ぎず, 収束性の向上に大きく寄与することを示す。
8つの機械翻訳タスクの実験結果から,パラメータ共有モデルのモデル複雑性を半分に抑えて,我々のモデルが競合性能を達成することが示された。
論文 参考訳(メタデータ) (2023-06-15T10:48:59Z) - IMACS: Image Model Attribution Comparison Summaries [16.80986701058596]
我々は,勾配に基づくモデル属性とアグリゲーションと可視化技術を組み合わせたIMACSを提案する。
IMACSは評価データセットから適切な入力特徴を抽出し、類似性に基づいてクラスタ化し、類似した入力特徴に対するモデル属性の違いを可視化する。
本稿では,衛星画像上で訓練した2つのモデル間の領域シフトによる行動差を明らかにする方法を示す。
論文 参考訳(メタデータ) (2022-01-26T21:35:14Z) - Equivalence of Segmental and Neural Transducer Modeling: A Proof of
Concept [56.46135010588918]
RNN-Transducerモデルとセグメントモデル(直接HMM)の広く使われているクラスが等価であることを証明する。
空白確率はセグメント長確率に変換され,その逆も示された。
論文 参考訳(メタデータ) (2021-04-13T11:20:48Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z) - Similarity Analysis of Contextual Word Representation Models [39.12749165544309]
我々は、深層モデルにおける情報の局所化のレベルを測定するために、既存の新しい類似度尺度を用いている。
この分析により、同じ家族内のモデルが、予想されるように互いに類似していることが明らかになった。
驚くべきことに、異なるアーキテクチャは比較的類似した表現を持っているが、個々のニューロンが異なる。
論文 参考訳(メタデータ) (2020-05-03T19:48:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。