論文の概要: Linear Connectivity Reveals Generalization Strategies
- arxiv url: http://arxiv.org/abs/2205.12411v1
- Date: Tue, 24 May 2022 23:43:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-28 23:39:47.189759
- Title: Linear Connectivity Reveals Generalization Strategies
- Title(参考訳): 線形接続が一般化戦略を明らかにする
- Authors: Jeevesh Juneja and Rachit Bansal and Kyunghyun Cho and Jo\~ao Sedoc
and Naomi Saphra
- Abstract要約: 微調整されたモデルのいくつかは、それらの間の線形経路における損失を増大させる大きな障壁を持つ。
テスト損失面上で線形に接続されているが、クラスタ外のモデルから切り離されている異なるモデルのクラスタが見つかる。
我々の研究は、損失面の幾何学がモデルを異なる関数へと導く方法を示している。
- 参考スコア(独自算出の注目度): 54.947772002394736
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: It is widely accepted in the mode connectivity literature that when two
neural networks are trained similarly on the same data, they are connected by a
path through parameter space over which test set accuracy is maintained. Under
some circumstances, including transfer learning from pretrained models, these
paths are presumed to be linear. In contrast to existing results, we find that
among text classifiers (trained on MNLI, QQP, and CoLA), some pairs of
finetuned models have large barriers of increasing loss on the linear paths
between them. On each task, we find distinct clusters of models which are
linearly connected on the test loss surface, but are disconnected from models
outside the cluster -- models that occupy separate basins on the surface. By
measuring performance on specially-crafted diagnostic datasets, we find that
these clusters correspond to different generalization strategies: one cluster
behaves like a bag of words model under domain shift, while another cluster
uses syntactic heuristics. Our work demonstrates how the geometry of the loss
surface can guide models towards different heuristic functions.
- Abstract(参考訳): モード接続の文献では、2つのニューラルネットワークが同じデータで同じように訓練されると、テストセットの精度が維持されるパラメータ空間を通る経路で接続されることが広く受け入れられている。
事前訓練されたモデルからの伝達学習を含むいくつかの状況では、これらの経路は線形であると推定される。
既存の結果とは対照的に、テキスト分類器(MNLI、QQP、CoLAで訓練されている)のうち、いくつかの微調整されたモデルは、それらの間の線形パスの損失を増大させる大きな障壁を持つ。
各タスクでは、テスト損失面上で線形に接続されているが、クラスタの外のモデルから切り離されている、異なるモデルのクラスタを見つけます。
1つのクラスタはドメインシフトの下で単語モデルの袋のように振る舞う一方、別のクラスタは構文的ヒューリスティックスを使っている。
本研究では,損失面の形状がモデルを異なるヒューリスティック関数へと導く方法を示す。
関連論文リスト
- Cross-Task Linearity Emerges in the Pretraining-Finetuning Paradigm [51.01613218027083]
クロスタスク線形性(CTL)は、共通の事前訓練されたチェックポイントからモデルで観察され、異なるタスクで微調整される。
CTLは、同じ事前訓練されたチェックポイントから始まる微調整されたモデルに対して一貫して発生する。
プレトレーニング-ファインタニングのパラダイムでは、ニューラルネットワークは基本的に線形写像として機能し、パラメータ空間から特徴空間へマッピングする。
論文 参考訳(メタデータ) (2024-02-06T03:28:36Z) - Layer-wise Linear Mode Connectivity [56.53308504862033]
ニューラルネットワークパラメータの平均化は、2つの独立したモデルの知識を融合させる直感的な方法である。
私たちは、単一グループやグループを平均化するモデルの性能を分析します。
論文 参考訳(メタデータ) (2023-07-13T09:39:10Z) - Phantom Embeddings: Using Embedding Space for Model Regularization in
Deep Neural Networks [12.293294756969477]
機械学習モデルの強みは、データから複雑な関数近似を学ぶ能力に起因している。
複雑なモデルはトレーニングデータを記憶する傾向があり、結果としてテストデータの正規化性能が低下する。
情報豊富な潜伏埋め込みと高いクラス内相関を利用してモデルを正規化するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-14T17:15:54Z) - Git Re-Basin: Merging Models modulo Permutation Symmetries [3.5450828190071655]
提案手法は,大規模ネットワークに適合する簡単なアルゴリズムを実例で示す。
我々は、独立に訓練されたモデル間のゼロモード接続の最初のデモ(私たちの知る限り)を実演する。
また、線形モード接続仮説の欠点についても論じる。
論文 参考訳(メタデータ) (2022-09-11T10:44:27Z) - Decoupled Multi-task Learning with Cyclical Self-Regulation for Face
Parsing [71.19528222206088]
顔解析のための周期的自己統制型デカップリング型マルチタスク学習を提案する。
具体的には、DML-CSRは、顔解析、バイナリエッジ、カテゴリエッジ検出を含むマルチタスクモデルを設計する。
提案手法は,Helen,CelebA-HQ,LapaMaskのデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-28T02:12:30Z) - Dynamically-Scaled Deep Canonical Correlation Analysis [77.34726150561087]
カノニカル相関解析 (CCA) は, 2つのビューの特徴抽出手法である。
本稿では,入力依存の正準相関モデルをトレーニングするための新しい動的スケーリング手法を提案する。
論文 参考訳(メタデータ) (2022-03-23T12:52:49Z) - T-LoHo: A Bayesian Regularization Model for Structured Sparsity and
Smoothness on Graphs [0.0]
グラフ構造化データでは、構造化されたスパーシリティと滑らかさが団結する傾向にある。
グラフィカルな関係を持つ高次元パラメータに先立って提案する。
構造された空間と滑らかさを同時に検出するために使用します。
論文 参考訳(メタデータ) (2021-07-06T10:10:03Z) - GELATO: Geometrically Enriched Latent Model for Offline Reinforcement
Learning [54.291331971813364]
オフライン強化学習アプローチは、近近法と不確実性認識法に分けられる。
本研究では,この2つを潜在変動モデルに組み合わせることのメリットを実証する。
提案したメトリクスは、分布サンプルのアウトの品質と、データ内のサンプルの不一致の両方を測定します。
論文 参考訳(メタデータ) (2021-02-22T19:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。