論文の概要: Training-time Neuron Alignment through Permutation Subspace for
Improving Linear Mode Connectivity and Model Fusion
- arxiv url: http://arxiv.org/abs/2402.01342v1
- Date: Fri, 2 Feb 2024 11:57:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 15:38:38.378721
- Title: Training-time Neuron Alignment through Permutation Subspace for
Improving Linear Mode Connectivity and Model Fusion
- Title(参考訳): リニアモード接続とモデル融合を改善するための置換部分空間によるトレーニング時間ニューロンアライメント
- Authors: Zexi Li, Zhiqi Li, Jie Lin, Tao Shen, Tao Lin, Chao Wu
- Abstract要約: トレーニング時間置換サブスペースは、LCC障壁を無償で削減することができる。
トレーニング中に部分勾配マスクを用いたアルゴリズムであるTNA-PFNを導入する。
広いモデル融合の応用、特に連合学習において優れている。
- 参考スコア(独自算出の注目度): 14.46991748119817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In deep learning, stochastic gradient descent often yields functionally
similar yet widely scattered solutions in the weight space even under the same
initialization, causing barriers in the Linear Mode Connectivity (LMC)
landscape. Overcoming these barriers is crucial for understanding deep learning
dynamics and enhancing model-fusion algorithms. Previous studies highlight the
role of permutation symmetry in reducing post-training barriers through network
permutation. However, these post-hoc methods, demanding extra computations, are
less effective for larger, complex models (e.g., ViT, LLM) due to numerous
permutation matrices. Thus, in this paper, we study training-time neuron
alignment. Our hypothesis suggests that training-time permutation subspace can
reduce LMC barriers for free. We find that pruning at initialization supports
this. Beyond pruning, we introduce TNA-PFN, a simple yet lossless algorithm
using a partial gradient mask during training. TNA-PFN is theoretically and
empirically validated for reducing LMC barriers. It excels in wide model fusion
applications, especially in federated learning, two algorithms based on TNA-FPN
that are proposed to show its prospects even under heterogeneous datasets.
Moreover, TNA-PFN can enhance the generalization of model soup for vision
transformers and ColD fusion for pretrained language models.
- Abstract(参考訳): 深層学習において、確率勾配降下はしばしば、同じ初期化の下でも、重み空間において機能的に類似しているが広く分散した解をもたらし、線形モード接続性(LMC)ランドスケープに障壁をもたらす。
これらの障壁を克服することは、ディープラーニングのダイナミクスの理解とモデル融合アルゴリズムの拡張に不可欠である。
前回の研究では、ネットワーク置換によるトレーニング後の障壁の削減における置換対称性の役割が強調された。
しかし、これらのポストホック法は、余分な計算を必要とするが、多くの置換行列のため、より大きく複雑なモデル(例えば、ViT, LLM)では効果が低い。
そこで本稿では,学習時間ニューロンアライメントについて検討する。
我々の仮説は、トレーニング時間置換部分空間がLCC障壁を無料で低減できることを示唆している。
初期化時のプルーニングはそれをサポートする。
プルーニング以外にも,訓練中に部分勾配マスクを用いた単純でロスレスなアルゴリズムであるtna-pfnを導入する。
TNA-PFNは理論上, 実験的にLCC障壁の低減に有効である。
TNA-FPNに基づく2つのアルゴリズムは、異種データセットでさえもその可能性を示すために提案されている。
さらに、TNA-PFNは、視覚変換器のモデルスープの一般化と事前訓練された言語モデルのColD融合を促進することができる。
関連論文リスト
- Cons-training tensor networks [2.8834278113855896]
テンソルネットワークと呼ばれる新しいファミリーを導入する。
textitconstrained matrix product state (MPS)
これらのネットワークは、不等式を含むちょうど任意の離散線型制約をスパースブロック構造に含んでいる。
これらのネットワークは、特に、可能空間上で厳密にサポートされた分散をモデル化するために調整されている。
論文 参考訳(メタデータ) (2024-05-15T00:13:18Z) - Universal Neural Functionals [67.80283995795985]
多くの現代の機械学習タスクでは、ウェイトスペース機能を処理することが難しい問題である。
最近の研究は、単純なフィードフォワードネットワークの置換対称性に同値な有望な重み空間モデルを開発した。
本研究は,任意の重み空間に対する置換同変モデルを自動的に構築するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-07T20:12:27Z) - A Masked Pruning Approach for Dimensionality Reduction in
Communication-Efficient Federated Learning Systems [11.639503711252663]
Federated Learning(FL)は、多数のノードにわたるモデルのトレーニング用に設計された、成長する機械学習(ML)パラダイムである。
本研究では, フラニング法とFL法を組み合わせることにより, 限界を克服する新しいアルゴリズムを開発した。
本研究は,MPFLの既存手法と比較して優れた性能を示す広範囲な実験的研究である。
論文 参考訳(メタデータ) (2023-12-06T20:29:23Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Decouple Graph Neural Networks: Train Multiple Simple GNNs Simultaneously Instead of One [60.5818387068983]
グラフニューラルネットワーク(GNN)は、深刻な非効率性に悩まされている。
我々は,より効率的なトレーニングを行うために,多層GNNを複数の単純なモジュールとして分離することを提案する。
提案するフレームワークは,合理的な性能で高い効率性を示す。
論文 参考訳(メタデータ) (2023-04-20T07:21:32Z) - Low-bit Quantization of Recurrent Neural Network Language Models Using
Alternating Direction Methods of Multipliers [67.688697838109]
本稿では、乗算器の交互方向法(ADMM)を用いて、スクラッチから量子化RNNLMを訓練する新しい手法を提案する。
2つのタスクの実験から、提案されたADMM量子化は、完全な精度ベースライン RNNLM で最大31倍のモデルサイズ圧縮係数を達成したことが示唆された。
論文 参考訳(メタデータ) (2021-11-29T09:30:06Z) - Partitioning sparse deep neural networks for scalable training and
inference [8.282177703075453]
最先端のディープニューラルネットワーク(DNN)には、計算とデータ管理の大幅な要件がある。
スパシフィケーション法とプルーニング法は,DNNの大量の接続を除去するのに有効であることが示されている。
その結果得られたスパースネットワークは、ディープラーニングにおけるトレーニングと推論の計算効率をさらに向上するためのユニークな課題を提示する。
論文 参考訳(メタデータ) (2021-04-23T20:05:52Z) - Optimizing Mode Connectivity via Neuron Alignment [84.26606622400423]
経験的に、損失関数の局所ミニマは、損失がほぼ一定であるようなモデル空間の学習曲線で接続することができる。
本稿では,ネットワークの重み変化を考慮し,対称性がランドスケープ・コネクティビティに与える影響を明らかにするための,より一般的な枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-05T02:25:23Z) - FLAMBE: Structural Complexity and Representation Learning of Low Rank
MDPs [53.710405006523274]
この研究は、表現学習の問題に焦点を当てている。
基礎となる(未知の)力学が低階遷移行列に対応するという仮定の下で、表現学習問題と特定の非線形行列分解問題との関連性を示す。
低階遷移モデルにおけるRLの探索と表現学習を行うFLAMBEを開発した。
論文 参考訳(メタデータ) (2020-06-18T19:11:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。