論文の概要: Revisiting Model Stitching to Compare Neural Representations
- arxiv url: http://arxiv.org/abs/2106.07682v1
- Date: Mon, 14 Jun 2021 18:05:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-16 15:29:40.852380
- Title: Revisiting Model Stitching to Compare Neural Representations
- Title(参考訳): ニューラル表現の比較のための再検討
- Authors: Yamini Bansal, Preetum Nakkiran, Boaz Barak
- Abstract要約: 我々は、$A$のボトム層と$B$のトップ層とを、それらの間に単純なトレーニング可能な層で接続することによって形成される「スティッチドモデル」を考える。
同じアーキテクチャの優れたネットワークは、非常に異なる方法で訓練されているが、性能を低下させることなく互いに縫合できることが示されています。
また,(1) 以上のデータ,(2) より大きな幅,(3) 以上のトレーニング時間で学習した表現が,より弱いモデルに"プラグイン"して性能を向上させることができることを示すことによって,「もっとよい」という直感の証拠を与える。
- 参考スコア(独自算出の注目度): 8.331711958610347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We revisit and extend model stitching (Lenc & Vedaldi 2015) as a methodology
to study the internal representations of neural networks. Given two trained and
frozen models $A$ and $B$, we consider a "stitched model'' formed by connecting
the bottom-layers of $A$ to the top-layers of $B$, with a simple trainable
layer between them. We argue that model stitching is a powerful and perhaps
under-appreciated tool, which reveals aspects of representations that measures
such as centered kernel alignment (CKA) cannot. Through extensive experiments,
we use model stitching to obtain quantitative verifications for intuitive
statements such as "good networks learn similar representations'', by
demonstrating that good networks of the same architecture, but trained in very
different ways (e.g.: supervised vs. self-supervised learning), can be stitched
to each other without drop in performance. We also give evidence for the
intuition that "more is better'' by showing that representations learnt with
(1) more data, (2) bigger width, or (3) more training time can be "plugged in''
to weaker models to improve performance. Finally, our experiments reveal a new
structural property of SGD which we call "stitching connectivity'', akin to
mode-connectivity: typical minima reached by SGD can all be stitched to each
other with minimal change in accuracy.
- Abstract(参考訳): 我々は、ニューラルネットワークの内部表現を研究する方法論として、モデル縫合(Lenc & Vedaldi 2015)を再検討し、拡張する。
トレーニング済みの2つのモデル$a$と$b$が与えられた場合、私たちは、$a$のボトム層と$b$のトップ層を、単純なトレーニング可能なレイヤで接続することによって形成される"スティッチモデル"を考えます。
我々は、モデル縫合は強力で、おそらく未承認のツールであり、中心核アライメント(CKA)のような測度では不可能な表現の側面を明らかにする。
広範な実験を通じて,「良質なネットワークは類似した表現を学習する」というような直感的な言明に対して,モデルステッチリングを用いて定量的な検証を行い,同じアーキテクチャの優れたネットワークが,まったく異なる方法で訓練されていることを示す。
: 指導的対自己指導的学習) は, 成績が低下することなく互いに縫合することができる。
また,(1)より多くのデータ,(2)より大きな幅,(3)より多くのトレーニング時間が,より弱いモデルに"プラグインイン"され,パフォーマンスが向上することを示すことで,直観的に「より良くなる」という証拠を与える。
最後に,本実験では,sgdが到達する典型的なミニマムは,それぞれを最小限の精度で縫い合わせることができるため,モード接続性に類似した「スティッチング接続」と呼ばれるsgdの新たな構造特性を明らかにする。
関連論文リスト
- Neural Metamorphosis [72.88137795439407]
本稿では,ニューラル・メタモルファス(NeuMeta)と呼ばれる,自己変形可能なニューラルネットワークの構築を目的とした新たな学習パラダイムを提案する。
NeuMetaはニューラルネットワークの連続重み多様体を直接学習する。
75%の圧縮速度でもフルサイズの性能を維持する。
論文 参考訳(メタデータ) (2024-10-10T14:49:58Z) - Improving Network Interpretability via Explanation Consistency Evaluation [56.14036428778861]
本稿では、より説明可能なアクティベーションヒートマップを取得し、同時にモデル性能を向上させるフレームワークを提案する。
具体的には、モデル学習において、トレーニングサンプルを適応的に重み付けするために、新しいメトリクス、すなわち説明整合性を導入する。
そこで,本フレームワークは,これらのトレーニングサンプルに深い注意を払ってモデル学習を促進する。
論文 参考訳(メタデータ) (2024-08-08T17:20:08Z) - Learning Goal-Conditioned Representations for Language Reward Models [10.94845204766088]
対照的な$textitgoal-conditioned$でトレーニング報酬モデル(RM)を提案する。
RM表現のこのトレーニング方法により、textitsteerability$が向上し、特定の目標状態を達成するアクションの可能性を評価することができる。
さらに、これらの表現は、希望する将来の目標状態に条件付けすることで、きめ細かい制御を行うことができる。
論文 参考訳(メタデータ) (2024-07-18T20:23:11Z) - On Layer-wise Representation Similarity: Application for Multi-Exit Models with a Single Classifier [20.17288970927518]
本研究では,各変圧器の隠蔽層間の表現の類似性について検討する。
本稿では,内部表現の類似性を高めるための協調学習手法を提案する。
論文 参考訳(メタデータ) (2024-06-20T16:41:09Z) - Model Stitching: Looking For Functional Similarity Between
Representations [5.657258033928475]
我々は、モデルステッチを使用して、異なるシードおよび/または同じアーキテクチャのトレーニングされたニューラルネットワークによって学習された同じ形状の表現を比較する、以前の研究を拡張した。
モデル縫合の予期せぬ挙動を明らかにする。つまり、小さなResNetに対して畳み込みに基づく縫合は、第1(sender)ネットワークにおいて第2(receiver)よりも第2(receiver)ネットワークで後になっても高い精度に達する。
論文 参考訳(メタデータ) (2023-03-20T17:12:42Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。
我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。
彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - Part-Based Models Improve Adversarial Robustness [57.699029966800644]
人間の事前知識とエンドツーエンドの学習を組み合わせることで、ディープニューラルネットワークの堅牢性を向上させることができることを示す。
我々のモデルは、部分分割モデルと小さな分類器を組み合わせて、オブジェクトを同時に部品に分割するようにエンドツーエンドに訓練されている。
実験の結果,これらのモデルによりテクスチャバイアスが低減され,一般的な汚職に対する堅牢性が向上し,相関が急上昇することが示唆された。
論文 参考訳(メタデータ) (2022-09-15T15:41:47Z) - How Well Do Sparse Imagenet Models Transfer? [75.98123173154605]
転送学習は、大規模な"上流"データセットで事前訓練されたモデルが、"下流"データセットで良い結果を得るために適応される古典的なパラダイムである。
本研究では、ImageNetデータセットでトレーニングされた畳み込みニューラルネットワーク(CNN)のコンテキストにおいて、この現象を詳細に調査する。
スパースモデルでは, 高空間であっても, 高密度モデルの転送性能にマッチしたり, 性能に優れることを示す。
論文 参考訳(メタデータ) (2021-11-26T11:58:51Z) - Distill on the Go: Online knowledge distillation in self-supervised
learning [1.1470070927586016]
最近の研究では、より広範でより深いモデルは、小さなモデルよりも自己監督学習の恩恵を受けることが示されている。
単段階オンライン知識蒸留を用いた自己指導型学習パラダイムであるDistill-on-the-Go(DoGo)を提案する。
以上の結果から,ノイズラベルや限定ラベルの存在下でのパフォーマンス向上がみられた。
論文 参考訳(メタデータ) (2021-04-20T09:59:23Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z) - From Boltzmann Machines to Neural Networks and Back Again [31.613544605376624]
制限ボルツマンマシン(Restricted Boltzmann Machines)は、おそらく最もよく研究されている潜在変数モデルのクラスである。
我々の結果は、$ell_infty$bounded inputの下で二層ニューラルネットワークを学習するための新しい接続に基づいている。
次に,分散仮定を使わずに,関連するネットワークのクラスに対して可能なものよりも,より優れたランタイムで教師付きRAMの自然なクラスを学習するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-25T00:42:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。