論文の概要: Harmony in Diversity: Merging Neural Networks with Canonical Correlation Analysis
- arxiv url: http://arxiv.org/abs/2407.05385v1
- Date: Sun, 7 Jul 2024 14:21:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 19:57:34.647727
- Title: Harmony in Diversity: Merging Neural Networks with Canonical Correlation Analysis
- Title(参考訳): 多様性の調和:正準相関解析とニューラルネットワークの融合
- Authors: Stefan Horoi, Albert Manuel Orozco Camacho, Eugene Belilovsky, Guy Wolf,
- Abstract要約: 相関解析に基づくCCAマージを提案する。
2モデル以上のモデルがマージされた場合、CCAは過去の方法よりもはるかにうまく機能することを示す。
- 参考スコア(独自算出の注目度): 17.989809995141044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Combining the predictions of multiple trained models through ensembling is generally a good way to improve accuracy by leveraging the different learned features of the models, however it comes with high computational and storage costs. Model fusion, the act of merging multiple models into one by combining their parameters reduces these costs but doesn't work as well in practice. Indeed, neural network loss landscapes are high-dimensional and non-convex and the minima found through learning are typically separated by high loss barriers. Numerous recent works have been focused on finding permutations matching one network features to the features of a second one, lowering the loss barrier on the linear path between them in parameter space. However, permutations are restrictive since they assume a one-to-one mapping between the different models' neurons exists. We propose a new model merging algorithm, CCA Merge, which is based on Canonical Correlation Analysis and aims to maximize the correlations between linear combinations of the model features. We show that our alignment method leads to better performances than past methods when averaging models trained on the same, or differing data splits. We also extend this analysis into the harder setting where more than 2 models are merged, and we find that CCA Merge works significantly better than past methods. Our code is publicly available at https://github.com/shoroi/align-n-merge
- Abstract(参考訳): アンサンブルによる複数の訓練されたモデルの予測を組み合わせることは、一般にモデルの異なる学習特徴を活用することによって精度を向上させるのに良い方法であるが、高い計算と記憶コストが伴う。
モデル融合(英: Model fusion)とは、パラメータを組み合わせることで複数のモデルを1つにマージする行為であり、これらのコストを削減するが、実際にはうまく機能しない。
実際、ニューラルネットワークのロスランドスケープは高次元かつ非凸であり、学習によって発見されたミニマは、通常、高損失バリアによって分離される。
最近の多くの研究は、1つのネットワークの特徴と2つ目の特徴とを一致させ、パラメータ空間におけるそれらの間の線形経路の損失障壁を低くすることに焦点を当てている。
しかし、異なるモデルのニューロンの間に1対1のマッピングが存在すると仮定するため、置換は制限的である。
我々は,正準相関解析に基づく新しいモデルマージアルゴリズムCCA Mergeを提案し,モデル特徴の線形結合の相関を最大化することを目的とする。
我々のアライメント手法は、トレーニングされたモデルの平均化やデータ分割の相違により、過去の方法よりもパフォーマンスが向上することを示す。
さらに、この分析を、2つ以上のモデルがマージされる難易度の設定にまで拡張し、CCA Mergeが過去の方法よりもはるかにうまく機能していることに気付きました。
私たちのコードはhttps://github.com/shoroi/align-n-mergeで公開されています。
関連論文リスト
- Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - Training-Free Model Merging for Multi-target Domain Adaptation [6.00960357022946]
シーン理解モデルのマルチターゲット領域適応について検討する。
私たちのソリューションはモデルパラメータのマージとモデルバッファのマージという2つのコンポーネントで構成されています。
我々の手法は単純だが有効であり、データ組み合わせトレーニングベースラインと同等の性能を達成できる。
論文 参考訳(メタデータ) (2024-07-18T17:59:57Z) - PLeaS -- Merging Models with Permutations and Least Squares [43.17620198572947]
モデル決定型PLeaSをマージする2段階のアルゴリズムを提案する。
PLeaSはアライメントを最大化することで各層のノードに部分的にマッチする。
マージされたモデルの重みをレイヤワイズ・リースト・スクエアの解として計算する。
論文 参考訳(メタデータ) (2024-07-02T17:24:04Z) - Layer-wise Linear Mode Connectivity [52.6945036534469]
ニューラルネットワークパラメータの平均化は、2つの独立したモデルの知識の直感的な方法である。
フェデレートラーニングにおいて最も顕著に用いられている。
私たちは、単一グループやグループを平均化するモデルの性能を分析します。
論文 参考訳(メタデータ) (2023-07-13T09:39:10Z) - TIES-Merging: Resolving Interference When Merging Models [95.59265307318752]
転送学習は、ダウンストリーム性能の改善、収束の高速化、サンプル効率の向上など、大きな利点をもたらす可能性がある。
モデルマージは、追加のトレーニングを行うことなく、複数のタスク固有のモデルを単一のモデルに組み合わせるソリューションとして登場した。
既存のマージ手法は、しばしば異なるモデルのパラメータ間の干渉を無視し、複数のモデルのマージ時に大きなパフォーマンス低下を引き起こす。
本稿では,モデル統合における新たな3つのステップとして,微調整時に少量だけ変化したパラメータをリセットし,符号衝突を解消し,最終的な一致した符号に一致したパラメータのみをマージするTIES-Mergingを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:31:32Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - On the Versatile Uses of Partial Distance Correlation in Deep Learning [47.11577420740119]
本稿では、異なる次元の特徴空間間の相関を評価するために設計された距離相関(および部分変量)と呼ばれる統計学から(広く知られていない)再検討する。
本稿では,大規模モデルへの展開に必要なステップについて述べる。
これは、ある深いモデルw.r.t.を条件付けすること、非絡み合った表現を学習すること、および敵の攻撃に対してより堅牢な多様なモデルを最適化することなど、驚くべき一連のアプリケーションへの扉を開く。
論文 参考訳(メタデータ) (2022-07-20T06:36:11Z) - Dynamically-Scaled Deep Canonical Correlation Analysis [77.34726150561087]
カノニカル相関解析 (CCA) は, 2つのビューの特徴抽出手法である。
本稿では,入力依存の正準相関モデルをトレーニングするための新しい動的スケーリング手法を提案する。
論文 参考訳(メタデータ) (2022-03-23T12:52:49Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。