論文の概要: Revisiting Model Stitching to Compare Neural Representations
- arxiv url: http://arxiv.org/abs/2106.07682v1
- Date: Mon, 14 Jun 2021 18:05:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-16 15:29:40.852380
- Title: Revisiting Model Stitching to Compare Neural Representations
- Title(参考訳): ニューラル表現の比較のための再検討
- Authors: Yamini Bansal, Preetum Nakkiran, Boaz Barak
- Abstract要約: 我々は、$A$のボトム層と$B$のトップ層とを、それらの間に単純なトレーニング可能な層で接続することによって形成される「スティッチドモデル」を考える。
同じアーキテクチャの優れたネットワークは、非常に異なる方法で訓練されているが、性能を低下させることなく互いに縫合できることが示されています。
また,(1) 以上のデータ,(2) より大きな幅,(3) 以上のトレーニング時間で学習した表現が,より弱いモデルに"プラグイン"して性能を向上させることができることを示すことによって,「もっとよい」という直感の証拠を与える。
- 参考スコア(独自算出の注目度): 8.331711958610347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We revisit and extend model stitching (Lenc & Vedaldi 2015) as a methodology
to study the internal representations of neural networks. Given two trained and
frozen models $A$ and $B$, we consider a "stitched model'' formed by connecting
the bottom-layers of $A$ to the top-layers of $B$, with a simple trainable
layer between them. We argue that model stitching is a powerful and perhaps
under-appreciated tool, which reveals aspects of representations that measures
such as centered kernel alignment (CKA) cannot. Through extensive experiments,
we use model stitching to obtain quantitative verifications for intuitive
statements such as "good networks learn similar representations'', by
demonstrating that good networks of the same architecture, but trained in very
different ways (e.g.: supervised vs. self-supervised learning), can be stitched
to each other without drop in performance. We also give evidence for the
intuition that "more is better'' by showing that representations learnt with
(1) more data, (2) bigger width, or (3) more training time can be "plugged in''
to weaker models to improve performance. Finally, our experiments reveal a new
structural property of SGD which we call "stitching connectivity'', akin to
mode-connectivity: typical minima reached by SGD can all be stitched to each
other with minimal change in accuracy.
- Abstract(参考訳): 我々は、ニューラルネットワークの内部表現を研究する方法論として、モデル縫合(Lenc & Vedaldi 2015)を再検討し、拡張する。
トレーニング済みの2つのモデル$a$と$b$が与えられた場合、私たちは、$a$のボトム層と$b$のトップ層を、単純なトレーニング可能なレイヤで接続することによって形成される"スティッチモデル"を考えます。
我々は、モデル縫合は強力で、おそらく未承認のツールであり、中心核アライメント(CKA)のような測度では不可能な表現の側面を明らかにする。
広範な実験を通じて,「良質なネットワークは類似した表現を学習する」というような直感的な言明に対して,モデルステッチリングを用いて定量的な検証を行い,同じアーキテクチャの優れたネットワークが,まったく異なる方法で訓練されていることを示す。
: 指導的対自己指導的学習) は, 成績が低下することなく互いに縫合することができる。
また,(1)より多くのデータ,(2)より大きな幅,(3)より多くのトレーニング時間が,より弱いモデルに"プラグインイン"され,パフォーマンスが向上することを示すことで,直観的に「より良くなる」という証拠を与える。
最後に,本実験では,sgdが到達する典型的なミニマムは,それぞれを最小限の精度で縫い合わせることができるため,モード接続性に類似した「スティッチング接続」と呼ばれるsgdの新たな構造特性を明らかにする。
関連論文リスト
- Model Stitching: Looking For Functional Similarity Between
Representations [5.657258033928475]
我々は、モデルステッチを使用して、異なるシードおよび/または同じアーキテクチャのトレーニングされたニューラルネットワークによって学習された同じ形状の表現を比較する、以前の研究を拡張した。
モデル縫合の予期せぬ挙動を明らかにする。つまり、小さなResNetに対して畳み込みに基づく縫合は、第1(sender)ネットワークにおいて第2(receiver)よりも第2(receiver)ネットワークで後になっても高い精度に達する。
論文 参考訳(メタデータ) (2023-03-20T17:12:42Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。
我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。
彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - Part-Based Models Improve Adversarial Robustness [57.699029966800644]
人間の事前知識とエンドツーエンドの学習を組み合わせることで、ディープニューラルネットワークの堅牢性を向上させることができることを示す。
我々のモデルは、部分分割モデルと小さな分類器を組み合わせて、オブジェクトを同時に部品に分割するようにエンドツーエンドに訓練されている。
実験の結果,これらのモデルによりテクスチャバイアスが低減され,一般的な汚職に対する堅牢性が向上し,相関が急上昇することが示唆された。
論文 参考訳(メタデータ) (2022-09-15T15:41:47Z) - Towards Alternative Techniques for Improving Adversarial Robustness:
Analysis of Adversarial Training at a Spectrum of Perturbations [5.18694590238069]
逆行訓練(AT)とその変種は、逆行性摂動に対するニューラルネットワークの堅牢性を改善する進歩を先導している。
私たちは、$epsilon$の値のスペクトルに基づいてトレーニングされたモデルに焦点を当てています。
ATの代替改善は、そうでなければ1ドル(約1万2000円)も出なかったでしょう。
論文 参考訳(メタデータ) (2022-06-13T22:01:21Z) - Neural Capacitance: A New Perspective of Neural Network Selection via
Edge Dynamics [85.31710759801705]
現在の実践は、性能予測のためのモデルトレーニングにおいて高価な計算コストを必要とする。
本稿では,学習中のシナプス接続(エッジ)上の制御ダイナミクスを解析し,ニューラルネットワーク選択のための新しいフレームワークを提案する。
我々のフレームワークは、ニューラルネットワークトレーニング中のバックプロパゲーションがシナプス接続の動的進化と等価であるという事実に基づいて構築されている。
論文 参考訳(メタデータ) (2022-01-11T20:53:15Z) - How Well Do Sparse Imagenet Models Transfer? [75.98123173154605]
転送学習は、大規模な"上流"データセットで事前訓練されたモデルが、"下流"データセットで良い結果を得るために適応される古典的なパラダイムである。
本研究では、ImageNetデータセットでトレーニングされた畳み込みニューラルネットワーク(CNN)のコンテキストにおいて、この現象を詳細に調査する。
スパースモデルでは, 高空間であっても, 高密度モデルの転送性能にマッチしたり, 性能に優れることを示す。
論文 参考訳(メタデータ) (2021-11-26T11:58:51Z) - Revisiting Contrastive Methods for Unsupervised Learning of Visual
Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。
本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。
現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文 参考訳(メタデータ) (2021-06-10T17:59:13Z) - Distill on the Go: Online knowledge distillation in self-supervised
learning [1.1470070927586016]
最近の研究では、より広範でより深いモデルは、小さなモデルよりも自己監督学習の恩恵を受けることが示されている。
単段階オンライン知識蒸留を用いた自己指導型学習パラダイムであるDistill-on-the-Go(DoGo)を提案する。
以上の結果から,ノイズラベルや限定ラベルの存在下でのパフォーマンス向上がみられた。
論文 参考訳(メタデータ) (2021-04-20T09:59:23Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z) - From Boltzmann Machines to Neural Networks and Back Again [31.613544605376624]
制限ボルツマンマシン(Restricted Boltzmann Machines)は、おそらく最もよく研究されている潜在変数モデルのクラスである。
我々の結果は、$ell_infty$bounded inputの下で二層ニューラルネットワークを学習するための新しい接続に基づいている。
次に,分散仮定を使わずに,関連するネットワークのクラスに対して可能なものよりも,より優れたランタイムで教師付きRAMの自然なクラスを学習するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-25T00:42:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。