論文の概要: Soft Merging: A Flexible and Robust Soft Model Merging Approach for
Enhanced Neural Network Performance
- arxiv url: http://arxiv.org/abs/2309.12259v1
- Date: Thu, 21 Sep 2023 17:07:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 14:10:28.244380
- Title: Soft Merging: A Flexible and Robust Soft Model Merging Approach for
Enhanced Neural Network Performance
- Title(参考訳): soft merge: フレキシブルでロバストなソフトモデルマージアプローチによるニューラルネットワークの性能向上
- Authors: Hao Chen, Yusen Wu, Phuong Nguyen, Chao Liu, Yelena Yesha
- Abstract要約: グラディエント(SGD)はしばしばモデル性能を改善するために局所最適化を収束させることに制限される。
エム・ソフト・マージング法は、望ましくない結果で得られた局所最適モデルを最小化する。
実験は、統合されたネットワークの有効性を裏付けるものである。
- 参考スコア(独自算出の注目度): 6.599368083393398
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Stochastic Gradient Descent (SGD), a widely used optimization algorithm in
deep learning, is often limited to converging to local optima due to the
non-convex nature of the problem. Leveraging these local optima to improve
model performance remains a challenging task. Given the inherent complexity of
neural networks, the simple arithmetic averaging of the obtained local optima
models in undesirable results. This paper proposes a {\em soft merging} method
that facilitates rapid merging of multiple models, simplifies the merging of
specific parts of neural networks, and enhances robustness against malicious
models with extreme values. This is achieved by learning gate parameters
through a surrogate of the $l_0$ norm using hard concrete distribution without
modifying the model weights of the given local optima models. This merging
process not only enhances the model performance by converging to a better local
optimum, but also minimizes computational costs, offering an efficient and
explicit learning process integrated with stochastic gradient descent. Thorough
experiments underscore the effectiveness and superior performance of the merged
neural networks.
- Abstract(参考訳): 深層学習において広く使用される最適化アルゴリズムである確率的勾配降下(sgd)は、問題の非凸性のために局所光学に収束することに限定されることが多い。
モデルパフォーマンスを改善するためにこれらのローカル最適化を活用することは、依然として難しい課題です。
ニューラルネットワークの本質的な複雑さを考えると、得られた局所最適モデルの単純な算術平均化は望ましくない結果をもたらす。
本稿では,複数のモデルの迅速なマージ,ニューラルネットワークの特定の部分のマージの簡略化,極端値の悪意のあるモデルに対する堅牢性の向上を目的とした,「emソフトマージ」手法を提案する。
これは、与えられた局所最適モデルのモデル重みを変更することなく、ハードコンクリート分布を用いて$l_0$ノルムのサロゲートを通じてゲートパラメータを学習することで達成される。
このマージ処理は, 局所的な最適値に収束することでモデル性能を向上させるだけでなく, 計算コストを最小化し, 確率勾配降下と統合された効率的で明示的な学習プロセスを提供する。
徹底した実験は、マージされたニューラルネットワークの有効性と優れたパフォーマンスを強調する。
関連論文リスト
- MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
Adam、Adam、およびそれらの変種のような大規模な勾配アルゴリズムは、この種のトレーニングの開発の中心となっている。
本稿では,事前条件付き勾配最適化手法と,スケールドモーメント手法による分散低減を両立させる枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - The Convex Landscape of Neural Networks: Characterizing Global Optima
and Stationary Points via Lasso Models [75.33431791218302]
ディープニューラルネットワーク(DNN)モデルは、プログラミング目的に使用される。
本稿では,凸型神経回復モデルについて検討する。
定常的非次元目的物はすべて,グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
また, 静止非次元目的物はすべて, グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
論文 参考訳(メタデータ) (2023-12-19T23:04:56Z) - Explicit Foundation Model Optimization with Self-Attentive Feed-Forward
Neural Units [4.807347156077897]
バックプロパゲーションを用いた反復近似法はニューラルネットワークの最適化を可能にするが、大規模に使用すると計算コストがかかる。
本稿では、ニューラルネットワークのスケーリングコストを削減し、低リソースアプリケーションに高効率な最適化を提供する、ニューラルネットワークの最適化のための効率的な代替手段を提案する。
論文 参考訳(メタデータ) (2023-11-13T17:55:07Z) - Distributed Pruning Towards Tiny Neural Networks in Federated Learning [12.63559789381064]
FedTinyは、フェデレートラーニングのための分散プルーニングフレームワークである。
メモリとコンピューティングに制約のあるデバイスのための、特殊な小さなモデルを生成する。
2.61%の精度向上を実現し、計算コストを95.91%削減した。
論文 参考訳(メタデータ) (2022-12-05T01:58:45Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Revisit Geophysical Imaging in A New View of Physics-informed Generative
Adversarial Learning [2.12121796606941]
完全な波形反転は高分解能地下モデルを生成する。
最小二乗関数を持つFWIは、局所ミニマ問題のような多くの欠点に悩まされる。
偏微分方程式とニューラルネットワークを用いた最近の研究は、2次元FWIに対して有望な性能を示している。
本稿では,波動方程式を識別ネットワークに統合し,物理的に一貫したモデルを正確に推定する,教師なし学習パラダイムを提案する。
論文 参考訳(メタデータ) (2021-09-23T15:54:40Z) - Non-Gradient Manifold Neural Network [79.44066256794187]
ディープニューラルネットワーク(DNN)は通常、勾配降下による最適化に数千のイテレーションを要します。
非次最適化に基づく新しい多様体ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-15T06:39:13Z) - Decentralized Statistical Inference with Unrolled Graph Neural Networks [26.025935320024665]
分散最適化アルゴリズムをグラフニューラルネットワーク(GNN)にアンロールする学習ベースフレームワークを提案する。
エンドツーエンドトレーニングによるリカバリエラーを最小限にすることで、この学習ベースのフレームワークは、モデルのミスマッチ問題を解決する。
コンバージェンス解析により,学習したモデルパラメータがコンバージェンスを加速し,リカバリエラーを広範囲に低減できることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-04T07:52:34Z) - Improving Gradient Flow with Unrolled Highway Expectation Maximization [0.9539495585692008]
本稿では,一般化EM (GEM) アルゴリズムの非順序反復からなるハイウェイ予測最大化ネットワーク (HEMNet) を提案する。
HEMNetは、スケールしたスキップ接続、あるいはハイウェイを、非ロールアーキテクチャの深さに沿って備えており、バックプロパゲーション時の勾配フローが改善されている。
複数のセマンティクスセグメンテーションベンチマークにおいて有意な改善を達成し,hemnetが勾配減衰を効果的に緩和することを示す。
論文 参考訳(メタデータ) (2020-12-09T09:11:45Z) - Optimization-driven Machine Learning for Intelligent Reflecting Surfaces
Assisted Wireless Networks [82.33619654835348]
インテリジェントサーフェス(IRS)は、個々の散乱素子の位相シフトを制御して無線チャネルを再形成するために用いられる。
散乱素子の規模が大きいため、受動ビームフォーミングは一般に高い計算複雑性によって挑戦される。
本稿では、IRS支援無線ネットワークの性能向上のための機械学習(ML)アプローチに焦点を当てる。
論文 参考訳(メタデータ) (2020-08-29T08:39:43Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。