論文の概要: Diffused Redundancy in Pre-trained Representations
- arxiv url: http://arxiv.org/abs/2306.00183v2
- Date: Mon, 30 Oct 2023 00:43:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 21:53:34.885828
- Title: Diffused Redundancy in Pre-trained Representations
- Title(参考訳): 事前学習表現における拡散冗長性
- Authors: Vedant Nanda, Till Speicher, John P. Dickerson, Soheil Feizi, Krishna
P. Gummadi, Adrian Weller
- Abstract要約: 事前訓練された表現で機能がどのようにコード化されているか、より詳しく見ていきます。
与えられた層における学習された表現は拡散冗長性を示す。
我々の発見は、事前訓練されたディープニューラルネットワークによって学習された表現の性質に光を当てた。
- 参考スコア(独自算出の注目度): 98.55546694886819
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Representations learned by pre-training a neural network on a large dataset
are increasingly used successfully to perform a variety of downstream tasks. In
this work, we take a closer look at how features are encoded in such
pre-trained representations. We find that learned representations in a given
layer exhibit a degree of diffuse redundancy, ie, any randomly chosen subset of
neurons in the layer that is larger than a threshold size shares a large degree
of similarity with the full layer and is able to perform similarly as the whole
layer on a variety of downstream tasks. For example, a linear probe trained on
$20\%$ of randomly picked neurons from the penultimate layer of a ResNet50
pre-trained on ImageNet1k achieves an accuracy within $5\%$ of a linear probe
trained on the full layer of neurons for downstream CIFAR10 classification. We
conduct experiments on different neural architectures (including CNNs and
Transformers) pre-trained on both ImageNet1k and ImageNet21k and evaluate a
variety of downstream tasks taken from the VTAB benchmark. We find that the
loss and dataset used during pre-training largely govern the degree of diffuse
redundancy and the "critical mass" of neurons needed often depends on the
downstream task, suggesting that there is a task-inherent
redundancy-performance Pareto frontier. Our findings shed light on the nature
of representations learned by pre-trained deep neural networks and suggest that
entire layers might not be necessary to perform many downstream tasks. We
investigate the potential for exploiting this redundancy to achieve efficient
generalization for downstream tasks and also draw caution to certain possible
unintended consequences. Our code is available at
\url{https://github.com/nvedant07/diffused-redundancy}.
- Abstract(参考訳): 大規模なデータセット上でニューラルネットワークを事前トレーニングすることで学んだ表現は、さまざまな下流タスクの実行に成功している。
本研究では,事前学習された表現で機能がどのようにエンコードされるのかを詳細に検討する。
閾値サイズよりも大きい層内のニューロンのランダムに選択されたサブセットは、全層と大きな類似度を持ち、様々な下流タスクで層全体と同様に実行することができる。
例えば、ImageNet1kで事前トレーニングされたResNet50の最後層からランダムに選択されたニューロンの20ドル%でトレーニングされた線形プローブは、下流のCIFAR10分類のためにニューロンの全層でトレーニングされた線形プローブの5ドル以内の精度を達成する。
我々は、ImageNet1kとImageNet21kの両方で事前訓練された異なるニューラルネットワーク(CNNとTransformersを含む)の実験を行い、VTABベンチマークから取得したさまざまな下流タスクを評価する。
プレトレーニング中に使用される損失とデータセットは、主に拡散冗長性の程度と、必要なニューロンの「臨界質量」が下流のタスクに依存することが判明し、タスクに依存しない冗長性パフォーマンスのparetoフロンティアが存在することを示唆した。
その結果,事前学習したディープニューラルネットワークで学習された表現の性質が明らかとなり,ダウンストリームタスクの実行には全層が必要でない可能性が示唆された。
下流タスクの効率的な一般化を実現するために,この冗長性を活用する可能性を検討するとともに,意図しない結果に注意を喚起する。
私たちのコードは \url{https://github.com/nvedant07/diffused-redundancy} で利用可能です。
関連論文リスト
- Fully Spiking Actor Network with Intra-layer Connections for
Reinforcement Learning [51.386945803485084]
エージェントが制御する多次元決定論的ポリシーを学習する必要があるタスクに焦点をあてる。
既存のスパイクベースのRL法は、SNNの出力として発火率を取り、完全に接続された層を通して連続的なアクション空間(つまり決定論的なポリシー)を表すように変換する。
浮動小数点行列操作を伴わない完全にスパイクするアクターネットワークを開発するため,昆虫に見られる非スパイク介在ニューロンからインスピレーションを得た。
論文 参考訳(メタデータ) (2024-01-09T07:31:34Z) - Provable Multi-Task Representation Learning by Two-Layer ReLU Neural Networks [69.38572074372392]
本稿では,複数タスクにおける非線形モデルを用いたトレーニング中に特徴学習が発生することを示す最初の結果を示す。
私たちのキーとなる洞察は、マルチタスク事前トレーニングは、通常タスク間で同じラベルを持つポイントを整列する表現を好む擬似コントラスト的損失を誘導するということです。
論文 参考訳(メタデータ) (2023-07-13T16:39:08Z) - Hidden Classification Layers: Enhancing linear separability between
classes in neural networks layers [0.0]
トレーニング手法の深層ネットワーク性能への影響について検討する。
本稿では,全てのネットワークレイヤの出力を含むエラー関数を誘導するニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-06-09T10:52:49Z) - ReLU Neural Networks with Linear Layers are Biased Towards Single- and Multi-Index Models [9.96121040675476]
この原稿は、2層以上の深さのニューラルネットワークによって学習された関数の性質が予測にどのように影響するかを考察している。
我々のフレームワークは、すべて同じキャパシティを持つが表現コストが異なる、様々な深さのネットワーク群を考慮に入れている。
論文 参考訳(メタデータ) (2023-05-24T22:10:12Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Neural Capacitance: A New Perspective of Neural Network Selection via
Edge Dynamics [85.31710759801705]
現在の実践は、性能予測のためのモデルトレーニングにおいて高価な計算コストを必要とする。
本稿では,学習中のシナプス接続(エッジ)上の制御ダイナミクスを解析し,ニューラルネットワーク選択のための新しいフレームワークを提案する。
我々のフレームワークは、ニューラルネットワークトレーニング中のバックプロパゲーションがシナプス接続の動的進化と等価であるという事実に基づいて構築されている。
論文 参考訳(メタデータ) (2022-01-11T20:53:15Z) - Targeted Gradient Descent: A Novel Method for Convolutional Neural
Networks Fine-tuning and Online-learning [9.011106198253053]
畳み込みニューラルネットワーク(ConvNet)は通常、同じ分布から引き出された画像を使用してトレーニングされ、テストされる。
ConvNetをさまざまなタスクに一般化するには、さまざまなタスクから描画されたイメージからなる完全なトレーニングデータセットが必要になることが多い。
本稿では,従来のタスクからデータを再検討することなく,事前学習したネットワークを新しいタスクに拡張可能な,新たな微調整手法であるTGDを提案する。
論文 参考訳(メタデータ) (2021-09-29T21:22:09Z) - Redundant representations help generalization in wide neural networks [71.38860635025907]
様々な最先端の畳み込みニューラルネットワークの最後に隠された層表現について検討する。
最後に隠された表現が十分に広ければ、そのニューロンは同一の情報を持つグループに分裂し、統計的に独立したノイズによってのみ異なる傾向にある。
論文 参考訳(メタデータ) (2021-06-07T10:18:54Z) - Representation Learning Beyond Linear Prediction Functions [33.94130046391917]
そこで本研究では,音源タスクと対象タスクが線形関数以外の異なる予測関数空間を使用する場合,多様性が達成可能であることを示す。
一般関数クラスの場合、エローダ次元は多様性に必要なタスクの数に低い境界を与える。
論文 参考訳(メタデータ) (2021-05-31T14:21:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。