論文の概要: Improving Model Fusion by Training-time Neuron Alignment with Fixed Neuron Anchors
- arxiv url: http://arxiv.org/abs/2402.01342v2
- Date: Mon, 27 Oct 2025 15:23:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:35.597933
- Title: Improving Model Fusion by Training-time Neuron Alignment with Fixed Neuron Anchors
- Title(参考訳): 固定ニューロンアンカーを用いたトレーニング時間ニューロンアライメントによるモデル融合の改善
- Authors: Zexi Li, Zhiqi Li, Jie Lin, Tao Shen, Jun Xiao, Yike Guo, Tao Lin, Chao Wu,
- Abstract要約: モデル融合は、パラメータを融合させることで、複数のディープニューラルネットワーク(DNN)モデルの知識をひとつに統合することを目的としている。
基礎モデルの一般化や、フェデレート学習におけるパラメータ平均化など、有望な応用がある。
以前の研究では、置換不変性の役割を強調し、トレーニング後のニューロンアライメントのための正しいネットワーク置換を見つける方法を開発した。
本稿では, トレーニング時ニューロンアライメント, モデル融合の改善について検討する。
- 参考スコア(独自算出の注目度): 43.254333003915555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model fusion aims to integrate several deep neural network (DNN) models' knowledge into one by fusing parameters, and it has promising applications, such as improving the generalization of foundation models and parameter averaging in federated learning. However, models under different settings (data, hyperparameter, etc.) have diverse neuron permutations; in other words, from the perspective of loss landscape, they reside in different loss basins, thus hindering model fusion performances. To alleviate this issue, previous studies highlighted the role of permutation invariance and have developed methods to find correct network permutations for neuron alignment after training. Orthogonal to previous attempts, this paper studies training-time neuron alignment, improving model fusion without the need for post-matching. Training-time alignment is cheaper than post-alignment and is applicable in various model fusion scenarios. Starting from fundamental hypotheses and theorems, a simple yet lossless algorithm called TNA-PFN is introduced. TNA-PFN utilizes partially fixed neuron weights as anchors to reduce the potential of training-time permutations, and it is empirically validated in reducing the barriers of linear mode connectivity and multi-model fusion. It is also validated that TNA-PFN can improve the fusion of pretrained models under the setting of model soup (vision transformers) and ColD fusion (pretrained language models). Based on TNA-PFN, two federated learning methods, FedPFN and FedPNU, are proposed, showing the prospects of training-time neuron alignment. FedPFN and FedPNU reach state-of-the-art performances in federated learning under heterogeneous settings and can be compatible with the server-side algorithm.
- Abstract(参考訳): Model fusionは、いくつかのディープニューラルネットワーク(DNN)モデルの知識を、パラメータを融合させることで統合することを目的としており、基礎モデルの一般化やフェデレート学習におけるパラメータ平均化など、有望な応用がある。
しかし、異なる設定(データ、ハイパーパラメータなど)下でのモデルには様々なニューロンの置換がある。
この問題を緩和するために、以前の研究では、置換不変性の役割を強調し、トレーニング後のニューロンアライメントに対する正しいネットワーク置換を見つける方法を開発した。
従来の試みと直交して、トレーニング時間ニューロンアライメント、モデル融合の改善について検討した。
トレーニング時間アライメントは、アライメント後よりも安価で、様々なモデル融合シナリオに適用できる。
基本的な仮説と定理から始めて、TNA-PFNと呼ばれる単純だが損失のないアルゴリズムが導入された。
TNA-PFNは、部分的に固定されたニューロン重みをアンカーとして使用し、トレーニング時間置換の可能性を低減し、線形モード接続とマルチモデル融合の障壁を減らすために実験的に検証されている。
また、TNA-PFNは、モデルスープ(ビジョン変換器)とColD融合(事前学習言語モデル)の設定下で、事前訓練されたモデルの融合を改善することができることが検証された。
TNA-PFNに基づいて、FedPFNとFedPNUの2つのフェデレート学習法を提案し、トレーニング時ニューロンアライメントの可能性を示した。
FedPFNとFedPNUは、異種条件下でのフェデレーション学習における最先端のパフォーマンスに達し、サーバサイドのアルゴリズムと互換性がある。
関連論文リスト
- Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
正規球上の線形最小化オラクル(LMO)を利用する最適化手法について検討する。
この問題の幾何学に適応するためにLMOを用いた新しいアルゴリズム群を提案し, 意外なことに, 制約のない問題に適用可能であることを示す。
論文 参考訳(メタデータ) (2025-02-11T13:10:34Z) - Cons-training tensor networks [2.8834278113855896]
テンソルネットワークと呼ばれる新しいファミリーを導入する。
textitconstrained matrix product state (MPS)
これらのネットワークは、不等式を含むちょうど任意の離散線型制約をスパースブロック構造に含んでいる。
これらのネットワークは、特に、可能空間上で厳密にサポートされた分散をモデル化するために調整されている。
論文 参考訳(メタデータ) (2024-05-15T00:13:18Z) - Universal Neural Functionals [67.80283995795985]
多くの現代の機械学習タスクでは、ウェイトスペース機能を処理することが難しい問題である。
最近の研究は、単純なフィードフォワードネットワークの置換対称性に同値な有望な重み空間モデルを開発した。
本研究は,任意の重み空間に対する置換同変モデルを自動的に構築するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-07T20:12:27Z) - A Masked Pruning Approach for Dimensionality Reduction in
Communication-Efficient Federated Learning Systems [11.639503711252663]
Federated Learning(FL)は、多数のノードにわたるモデルのトレーニング用に設計された、成長する機械学習(ML)パラダイムである。
本研究では, フラニング法とFL法を組み合わせることにより, 限界を克服する新しいアルゴリズムを開発した。
本研究は,MPFLの既存手法と比較して優れた性能を示す広範囲な実験的研究である。
論文 参考訳(メタデータ) (2023-12-06T20:29:23Z) - Neural Lattice Reduction: A Self-Supervised Geometric Deep Learning Approach [12.679411410749521]
本稿では,ニューラルネットワークによる格子縮小問題に対するアルゴリズム空間のパラメータ化と,教師付きデータを持たないアルゴリズムの探索を行うことが可能であることを示す。
本研究では,一様行列の因子を出力する深層ニューラルネットワークを設計し,非直交格子基底をペナルライズして自己指導的に学習する。
提案手法は,一連のベンチマークにおいて,Lenstra-Lenstra-Lov'aszアルゴリズムに匹敵する複雑性と性能を持つアルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2023-11-14T13:54:35Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Decouple Graph Neural Networks: Train Multiple Simple GNNs Simultaneously Instead of One [60.5818387068983]
グラフニューラルネットワーク(GNN)は、深刻な非効率性に悩まされている。
我々は,より効率的なトレーニングを行うために,多層GNNを複数の単純なモジュールとして分離することを提案する。
提案するフレームワークは,合理的な性能で高い効率性を示す。
論文 参考訳(メタデータ) (2023-04-20T07:21:32Z) - Low-bit Quantization of Recurrent Neural Network Language Models Using
Alternating Direction Methods of Multipliers [67.688697838109]
本稿では、乗算器の交互方向法(ADMM)を用いて、スクラッチから量子化RNNLMを訓練する新しい手法を提案する。
2つのタスクの実験から、提案されたADMM量子化は、完全な精度ベースライン RNNLM で最大31倍のモデルサイズ圧縮係数を達成したことが示唆された。
論文 参考訳(メタデータ) (2021-11-29T09:30:06Z) - Partitioning sparse deep neural networks for scalable training and
inference [8.282177703075453]
最先端のディープニューラルネットワーク(DNN)には、計算とデータ管理の大幅な要件がある。
スパシフィケーション法とプルーニング法は,DNNの大量の接続を除去するのに有効であることが示されている。
その結果得られたスパースネットワークは、ディープラーニングにおけるトレーニングと推論の計算効率をさらに向上するためのユニークな課題を提示する。
論文 参考訳(メタデータ) (2021-04-23T20:05:52Z) - Optimizing Mode Connectivity via Neuron Alignment [84.26606622400423]
経験的に、損失関数の局所ミニマは、損失がほぼ一定であるようなモデル空間の学習曲線で接続することができる。
本稿では,ネットワークの重み変化を考慮し,対称性がランドスケープ・コネクティビティに与える影響を明らかにするための,より一般的な枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-05T02:25:23Z) - FLAMBE: Structural Complexity and Representation Learning of Low Rank
MDPs [53.710405006523274]
この研究は、表現学習の問題に焦点を当てている。
基礎となる(未知の)力学が低階遷移行列に対応するという仮定の下で、表現学習問題と特定の非線形行列分解問題との関連性を示す。
低階遷移モデルにおけるRLの探索と表現学習を行うFLAMBEを開発した。
論文 参考訳(メタデータ) (2020-06-18T19:11:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。