論文の概要: Analysis of Linear Mode Connectivity via Permutation-Based Weight Matching
- arxiv url: http://arxiv.org/abs/2402.04051v4
- Date: Thu, 03 Oct 2024 11:36:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-05 03:34:12.531529
- Title: Analysis of Linear Mode Connectivity via Permutation-Based Weight Matching
- Title(参考訳): 置換に基づく重みマッチングによる線形モード接続性の解析
- Authors: Akira Ito, Masanori Yamada, Atsutoshi Kumagai,
- Abstract要約: We show that permutations found by weight matching (WM) not significantly reduce the $L$ distance between two models。
この発見は、WM によって発見された置換が、主にモデル全体の大きな特異値に付随する特異ベクトルの方向を一致させることを示している。
本稿では、特異ベクトルの観点からアクティベーションマッチング(AM)を解析し、AMの原理がWMと同じであることを示す。
- 参考スコア(独自算出の注目度): 14.96239541426242
- License:
- Abstract: Recently, Ainsworth et al. showed that using weight matching (WM) to minimize the $L_2$ distance in a permutation search of model parameters effectively identifies permutations that satisfy linear mode connectivity (LMC), where the loss along a linear path between two independently trained models with different seeds remains nearly constant. This paper analyzes LMC using WM, which is useful for understanding stochastic gradient descent's effectiveness and its application in areas like model merging. We first empirically show that permutations found by WM do not significantly reduce the $L_2$ distance between two models, and the occurrence of LMC is not merely due to distance reduction by WM itself. We then demonstrate that permutations can change the directions of the singular vectors, but not the singular values, of the weight matrices in each layer. This finding shows that permutations found by WM primarily align the directions of singular vectors associated with large singular values across models. This alignment brings the singular vectors with large singular values, which determine the model's functionality, closer between the original and merged models, allowing the merged model to retain functionality similar to the original models, thereby satisfying LMC. This paper also analyzes activation matching (AM) in terms of singular vectors and finds that the principle of AM is the same as that of WM. Finally, we analyze the difference between WM and the straight-through estimator (STE), a dataset-dependent permutation search method, and show that WM can be more advantageous than STE in achieving LMC among three or more models.
- Abstract(参考訳): 近年、Ainsworthらはモデルパラメータの置換探索において、ウェイトマッチング(WM)を用いて$L_2$距離を最小化し、線形モード接続(LMC)を満足する置換を効果的に同定することを示した。
本稿では,WMを用いたLCCの解析を行い,確率勾配降下の有効性とモデルマージなどの分野への応用について述べる。
まず、WMが検出した置換が2つのモデル間のL_2$距離を著しく減少させるわけではないことを実証的に示し、LCCの発生は単にWM自身による距離減少によるものではないことを示した。
次に、置換は各層における重み行列の特異ベクトルの方向を変えることができるが、特異値ではないことを示す。
この発見は、WM によって発見された置換が、主にモデル全体の大きな特異値に付随する特異ベクトルの方向を一致させることを示している。
このアライメントは、モデルの機能を決定する大きな特異値を持つ特異ベクトルをもたらし、元のモデルとマージされたモデルの間に近づき、マージされたモデルは元のモデルと同様の機能を保持し、LCCを満たす。
本稿では、特異ベクトルの観点からアクティベーションマッチング(AM)を解析し、AMの原理がWMと同じであることを示す。
最後に、データセット依存の置換探索法であるストレートスルー推定器(STE)とWMの違いを分析し、WMが3つ以上のモデルでLCCを達成する際に、STEよりも有利であることを示す。
関連論文リスト
- Harmony in Diversity: Merging Neural Networks with Canonical Correlation Analysis [17.989809995141044]
相関解析に基づくCCAマージを提案する。
2モデル以上のモデルがマージされた場合、CCAは過去の方法よりもはるかにうまく機能することを示す。
論文 参考訳(メタデータ) (2024-07-07T14:21:04Z) - Computational-Statistical Gaps in Gaussian Single-Index Models [77.1473134227844]
単次元モデル(Single-Index Models)は、植木構造における高次元回帰問題である。
我々は,統計的クエリ (SQ) と低遅延多項式 (LDP) フレームワークの両方において,計算効率のよいアルゴリズムが必ずしも$Omega(dkstar/2)$サンプルを必要とすることを示した。
論文 参考訳(メタデータ) (2024-03-08T18:50:19Z) - The Generalization Error of Stochastic Mirror Descent on
Over-Parametrized Linear Models [37.6314945221565]
ディープネットワークは、目に見えないデータにうまく一般化することが知られている。
正規化特性は「良い」性質を持つ補間解が見つかることを保証している。
理論を検証し、2つのデータモデルを導入するシミュレーション結果を提案する。
論文 参考訳(メタデータ) (2023-02-18T22:23:42Z) - Git Re-Basin: Merging Models modulo Permutation Symmetries [3.5450828190071655]
提案手法は,大規模ネットワークに適合する簡単なアルゴリズムを実例で示す。
我々は、独立に訓練されたモデル間のゼロモード接続の最初のデモ(私たちの知る限り)を実演する。
また、線形モード接続仮説の欠点についても論じる。
論文 参考訳(メタデータ) (2022-09-11T10:44:27Z) - Sampling Approximately Low-Rank Ising Models: MCMC meets Variational
Methods [35.24886589614034]
一般相互作用が$J$である超キューブ上の二次定値イジングモデルを考える。
我々の一般的な結果は、低ランクのIsingモデルに対する最初のサンプリングアルゴリズムを示唆している。
論文 参考訳(メタデータ) (2022-02-17T21:43:50Z) - Test Set Sizing Via Random Matrix Theory [91.3755431537592]
本稿ではランダム行列理論の手法を用いて、単純な線形回帰に対して理想的なトレーニング-テストデータ分割を求める。
それは「理想」を整合性計量を満たすものとして定義し、すなわち経験的モデル誤差は実際の測定ノイズである。
本論文は,任意のモデルのトレーニングとテストサイズを,真に最適な方法で解決した最初の論文である。
論文 参考訳(メタデータ) (2021-12-11T13:18:33Z) - Robust Multi-view Registration of Point Sets with Laplacian Mixture
Model [25.865100974015412]
重み付きラプラシアン分布に基づいて複数の点集合を整列させる新しい確率的生成法を提案する。
本稿では,提案手法の利点を,ベンチマークの挑戦的データセットに対する最先端手法と比較することによって示す。
論文 参考訳(メタデータ) (2021-10-26T14:49:09Z) - A Wasserstein Minimax Framework for Mixed Linear Regression [69.40394595795544]
マルチモーダル分布は、学習タスクにおいてクラスタ化されたデータをモデル化するために一般的に使用される。
混合線形回帰問題に対する最適輸送ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-14T16:03:51Z) - On the Adversarial Robustness of LASSO Based Feature Selection [72.54211869067979]
検討されたモデルでは、悪意のある敵がデータセット全体を観察し、レスポンス値やフィーチャーマトリックスを慎重に修正する。
両レベルの最適化問題として、敵の修正戦略を定式化する。
合成および実データを用いた数値的な例は,本手法が効率的かつ効果的であることを示している。
論文 参考訳(メタデータ) (2020-10-20T05:51:26Z) - Understanding Implicit Regularization in Over-Parameterized Single Index
Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。
暗黙正則化現象の理論的保証を提供する。
論文 参考訳(メタデータ) (2020-07-16T13:27:47Z) - Multi-Objective Matrix Normalization for Fine-grained Visual Recognition [153.49014114484424]
双線形プールは細粒度視覚認識(FGVC)において大きな成功を収める
近年,行列パワー正規化は双線形特徴量において2次情報を安定化させることができることが示されている。
両線形表現を同時に正規化できる効率的な多目的行列正規化法(MOMN)を提案する。
論文 参考訳(メタデータ) (2020-03-30T08:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。