論文の概要: A separability-based approach to quantifying generalization: which layer is best?
- arxiv url: http://arxiv.org/abs/2405.01524v3
- Date: Sat, 02 Nov 2024 12:03:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:45:00.480190
- Title: A separability-based approach to quantifying generalization: which layer is best?
- Title(参考訳): 一般化の定量化のための分離可能性に基づくアプローチ:どの層が最適か?
- Authors: Luciano Dyballa, Evan Gerritz, Steven W. Zucker,
- Abstract要約: 未確認データへの一般化は、ディープラーニングの分類と基礎モデルではよく理解されていない。
サンプル領域を表すネットワークのキャパシティを評価するための新しい手法を提案する。
i) 高い分類精度は高い一般化可能性を示すものではなく、(ii) モデルの深い層が必ずしも最良を一般化するとは限らない。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Generalization to unseen data remains poorly understood for deep learning classification and foundation models, especially in the open set scenario. How can one assess the ability of networks to adapt to new or extended versions of their input space in the spirit of few-shot learning, out-of-distribution generalization, domain adaptation, and category discovery? Which layers of a network are likely to generalize best? We provide a new method for evaluating the capacity of networks to represent a sampled domain, regardless of whether the network has been trained on all classes in that domain. Our approach is the following: after fine-tuning state-of-the-art pre-trained models for visual classification on a particular domain, we assess their performance on data from related but distinct variations in that domain. Generalization power is quantified as a function of the latent embeddings of unseen data from intermediate layers for both unsupervised and supervised settings. Working throughout all stages of the network, we find that (i) high classification accuracy does not imply high generalizability; and (ii) deeper layers in a model do not always generalize the best, which has implications for pruning. Since the trends observed across datasets are largely consistent, we conclude that our approach reveals (a function of) the intrinsic capacity of the different layers of a model to generalize. Our code is available at https://github.com/dyballa/generalization
- Abstract(参考訳): 未確認データへの一般化は、特にオープンセットのシナリオにおいて、ディープラーニングの分類と基礎モデルの理解に乏しいままである。
数ショット学習、アウト・オブ・ディストリビューションの一般化、ドメイン適応、カテゴリ発見の精神において、ネットワークが入力空間の新規または拡張バージョンに適応する能力をどのように評価することができるか。
ネットワークのどの層が最も一般化されるか?
ネットワークがそのドメインのすべてのクラスで訓練されているかどうかに関わらず、サンプルドメインを表すネットワークの容量を評価するための新しい手法を提案する。
我々のアプローチは以下の通りである: ある領域における視覚的分類のための最先端の訓練済みモデルを微調整した後、その領域の関連するが異なるバリエーションからそれらの性能を評価する。
一般化パワーは、教師なし設定と教師なし設定の両方に対して中間層から見えないデータの潜伏埋め込みの関数として定量化される。
ネットワークのあらゆる段階にまたがって働くと、私たちはそれを見つける。
(i)高い分類精度は、高い一般化可能性を意味するものではない。
(ii) モデル内の深い層が必ずしも最良を一般化するとは限らない。
データセット間で観測される傾向は概ね一貫したものであるので、我々の手法はモデルの異なるレイヤの固有の能力を明らかにし(関数)、一般化する。
私たちのコードはhttps://github.com/dyballa/ generalizationで利用可能です。
関連論文リスト
- Self-Supervised Learning for Covariance Estimation [3.04585143845864]
推論時に局所的に適用されるニューラルネットワークをグローバルに学習することを提案する。
アーキテクチャは、一般的な注目メカニズムに基づいている。
基礎モデルとして事前訓練し、レーダーやハイパースペクトル画像の適応目標検出など、様々な下流タスクに再利用することができる。
論文 参考訳(メタデータ) (2024-03-13T16:16:20Z) - Zero-shot generalization across architectures for visual classification [0.0]
未確認データへの一般化はディープネットワークにとって重要なデシダータムであるが、その分類精度との関係は不明確である。
我々は、ディープ・コンボリューショナル・ネットワーク(CNN)からトランスフォーマー(transformer)に至るまで、一般的なネットワークが、レイヤやアーキテクチャ全体にわたって、目に見えないクラスに外挿する能力に変化があることを示します。
論文 参考訳(メタデータ) (2024-02-21T19:45:05Z) - Activate and Reject: Towards Safe Domain Generalization under Category
Shift [71.95548187205736]
カテゴリーシフト(DGCS)下における領域一般化の実践的問題について検討する。
未知のクラスサンプルを同時に検出し、ターゲットドメイン内の既知のクラスサンプルを分類することを目的としている。
従来のDGと比較すると,1)ソースクラスのみを用いたトレーニングにおいて,未知の概念を学習する方法,2)ソーストレーニングされたモデルを未知の環境に適応する方法,の2つの新しい課題に直面している。
論文 参考訳(メタデータ) (2023-10-07T07:53:12Z) - Do We Really Need a Learnable Classifier at the End of Deep Neural
Network? [118.18554882199676]
本研究では、ニューラルネットワークを学習して分類器をランダムにETFとして分類し、訓練中に固定する可能性について検討する。
実験結果から,バランスの取れたデータセットの画像分類において,同様の性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-17T04:34:28Z) - Towards Disentangling Information Paths with Coded ResNeXt [11.884259630414515]
ネットワーク全体の機能の透明性を高めるために,我々は新しいアプローチを採っている。
分類のためのニューラルネットワークアーキテクチャを提案し、各クラスに関連する情報が特定の経路を流れる。
論文 参考訳(メタデータ) (2022-02-10T21:45:49Z) - Hierarchical Variational Memory for Few-shot Learning Across Domains [120.87679627651153]
本稿では,プロトタイプの各レベルが階層メモリから対応する情報を取得する階層型プロトタイプモデルを提案する。
このモデルには、ドメインシフトの状況が要求される場合、異なるセマンティックレベルの機能を柔軟に依存する能力が備わっている。
モデルにおける各コンポーネントの有効性を示すために、徹底的なアブレーション研究を行っている。
論文 参考訳(メタデータ) (2021-12-15T15:01:29Z) - Calibrating Class Activation Maps for Long-Tailed Visual Recognition [60.77124328049557]
本稿では,CNNの長期分布からネットワーク学習を改善するための2つの効果的な修正を提案する。
まず,ネットワーク分類器の学習と予測を改善するために,CAMC (Class Activation Map) モジュールを提案する。
第2に,長期化問題における表現学習における正規化分類器の利用について検討する。
論文 参考訳(メタデータ) (2021-08-29T05:45:03Z) - More Is More -- Narrowing the Generalization Gap by Adding
Classification Heads [8.883733362171032]
我々は「TransNet」と呼ばれる入力変換に基づく既存のニューラルネットワークモデルのためのアーキテクチャ拡張を導入する。
私たちのモデルは、トレーニング時間のみに使用でき、予測のために刈り取られ、結果としてベースモデルと同等のアーキテクチャになります。
論文 参考訳(メタデータ) (2021-02-09T16:30:33Z) - Fine-Grained Visual Classification with Efficient End-to-end
Localization [49.9887676289364]
本稿では,エンド・ツー・エンドの設定において,分類ネットワークと融合可能な効率的なローカライゼーションモジュールを提案する。
我々は,CUB200-2011,Stanford Cars,FGVC-Aircraftの3つのベンチマークデータセット上で,新しいモデルを評価する。
論文 参考訳(メタデータ) (2020-05-11T14:07:06Z) - Rethinking Class-Balanced Methods for Long-Tailed Visual Recognition
from a Domain Adaptation Perspective [98.70226503904402]
現実世界のオブジェクトの周波数は、しばしば電力法則に従い、長い尾のクラス分布を持つデータセット間のミスマッチを引き起こす。
メタラーニング手法を用いて,クラス条件分布の違いを明示的に推定し,古典的なクラスバランス学習を強化することを提案する。
論文 参考訳(メタデータ) (2020-03-24T11:28:42Z) - AL2: Progressive Activation Loss for Learning General Representations in
Classification Neural Networks [12.14537824884951]
本稿では,トレーニング中のアクティベーションの規模を段階的に罰する新たな正規化手法を提案する。
本手法が一般化に与える影響をラベルランダム化試験と累積アブレーションを用いて解析した。
論文 参考訳(メタデータ) (2020-03-07T18:38:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。