論文の概要: Rethinking Model Re-Basin and Linear Mode Connectivity
- arxiv url: http://arxiv.org/abs/2402.05966v2
- Date: Tue, 9 Jul 2024 09:23:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 00:01:00.993710
- Title: Rethinking Model Re-Basin and Linear Mode Connectivity
- Title(参考訳): モデル再ベースと線形モード接続性の再考
- Authors: Xingyu Qu, Samuel Horvath,
- Abstract要約: 我々は再正規化を再スケーリングと再シフトに分解し、再スケーリングが再正規化に重要な役割を果たしていることを明らかにする。
統合モデルでは, 活性化崩壊とマグニチュード崩壊の問題に悩まされている。
本稿では,リベースとプルーニングを統一する新たな視点を提案し,軽量で効果的なポストプルーニング手法を導出する。
- 参考スコア(独自算出の注目度): 1.1510009152620668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies suggest that with sufficiently wide models, most SGD solutions can, up to permutation, converge into the same basin. This phenomenon, known as the model re-basin regime, has significant implications for model averaging by ensuring the linear mode connectivity. However, current re-basin strategies are ineffective in many scenarios due to a lack of comprehensive understanding of underlying mechanisms. Addressing this gap, this paper provides novel insights into understanding and improving the standard practice. Firstly, we decompose re-normalization into rescaling and reshift, uncovering that rescaling plays a crucial role in re-normalization while re-basin performance is sensitive to shifts in model activation. The finding calls for a more nuanced handling of the activation shift. Secondly, we identify that the merged model suffers from the issue of activation collapse and magnitude collapse. Varying the learning rate, weight decay, and initialization method can mitigate the issues and improve model performance. Lastly, we propose a new perspective to unify the re-basin and pruning, under which a lightweight yet effective post-pruning technique is derived, which can significantly improve the model performance after pruning. Our implementation is available at https://github.com/XingyuQu/rethink-re-basin.
- Abstract(参考訳): 最近の研究は、十分に広いモデルで、ほとんどのSGDソリューションは、置換まで同じ盆地に収束することができることを示唆している。
この現象は、リニアモード接続を確実にすることで、モデル平均化に重大な影響を及ぼす。
しかし、現在の再ベース戦略は、基盤となるメカニズムの包括的な理解が欠如しているため、多くのシナリオでは効果がない。
このギャップに対処するため,本論文では,標準実践の理解と改善に関する新たな知見を提供する。
まず、再正規化を再スケーリングと再シフトに分解し、再スケーリングが再正規化において重要な役割を担い、リベース性能はモデルアクティベーションのシフトに敏感であることを明らかにする。
この発見は、アクティベーションシフトをより微妙に扱うことを要求する。
第2に,統合モデルが活性化崩壊とマグニチュード崩壊の問題に悩まされていることを確かめる。
学習速度、体重減少、初期化の方法は、問題を緩和し、モデル性能を向上させることができる。
最後に,再ベースとプルーニングを統一する新たな視点を提案し,プルーニング後のモデル性能を大幅に向上させる軽量で効果的なポストプルーニング手法を導出する。
私たちの実装はhttps://github.com/XingyuQu/rethink-re-basin.comで公開されています。
関連論文リスト
- ConsistentFeature: A Plug-and-Play Component for Neural Network Regularization [0.32885740436059047]
過パラメータ化されたニューラルネットワークモデルは、トレーニングとテストセットの間に大きなパフォーマンスの相違をもたらすことが多い。
モデルは異なるデータセットで異なる表現を学習する。
適応的手法であるConsistentFeatureを提案し、同じトレーニングセットのランダムなサブセット間で特徴差を制約することでモデルを正規化する。
論文 参考訳(メタデータ) (2024-12-02T13:21:31Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Minusformer: Improving Time Series Forecasting by Progressively Learning Residuals [14.741951369068877]
ユビキタス時系列(TS)予測モデルでは,過度なオーバーフィッティングが生じる傾向にある。
本稿では,深層的なブースティング・アンサンブル学習手法である二重ストリーム・サブトラクション機構を提案する。
提案手法は既存の最先端手法よりも優れており,各データセットの平均性能は11.9%向上した。
論文 参考訳(メタデータ) (2024-02-04T03:54:31Z) - JoReS-Diff: Joint Retinex and Semantic Priors in Diffusion Model for Low-light Image Enhancement [69.6035373784027]
低照度画像強調(LLIE)は条件付き拡散モデルを用いて有望な性能を実現している。
従来手法は、タスク固有の条件戦略の十分な定式化の重要性を無視するものであった。
本稿では,Retinex および semantic-based pre-processing condition を付加した新しいアプローチである JoReS-Diff を提案する。
論文 参考訳(メタデータ) (2023-12-20T08:05:57Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Sparse Model Soups: A Recipe for Improved Pruning via Model Averaging [24.64264715041198]
Sparse Model Soups (SMS) は,各プルー・リトレインサイクルを前フェーズから平均モデルに開始することでスパースモデルをマージする新しい手法である。
SMSはスパース性を保ち、スパースネットワークの利点を悪用し、モジュール化され、完全に並列化可能であり、IMPのパフォーマンスを大幅に改善する。
論文 参考訳(メタデータ) (2023-06-29T08:49:41Z) - Exploiting Diffusion Prior for Real-World Image Super-Resolution [75.5898357277047]
本稿では,事前学習したテキスト・画像拡散モデルにカプセル化された事前知識を視覚的超解像に活用するための新しいアプローチを提案する。
時間認識エンコーダを用いることで、事前学習した合成モデルを変更することなく、有望な復元結果が得られる。
論文 参考訳(メタデータ) (2023-05-11T17:55:25Z) - Latent Autoregressive Source Separation [5.871054749661012]
本稿では,ベクトル量子化遅延自己回帰音源分離(入力信号を構成源にデミックスする)を導入する。
分離法は, 自己回帰モデルが先行するベイズ式に依拠し, 付加トークンの潜在和に対して離散的(非パラメトリック)確率関数を構築した。
論文 参考訳(メタデータ) (2023-01-09T17:32:00Z) - ClusterQ: Semantic Feature Distribution Alignment for Data-Free
Quantization [111.12063632743013]
本稿では,ClusterQと呼ばれるデータフリーな量子化手法を提案する。
意味的特徴のクラス間分離性を高めるために,特徴分布統計をクラスタ化し,整列する。
また、クラス内分散を組み込んで、クラスワイドモードの崩壊を解決する。
論文 参考訳(メタデータ) (2022-04-30T06:58:56Z) - Adversarial and Contrastive Variational Autoencoder for Sequential
Recommendation [25.37244686572865]
本稿では、逐次レコメンデーションのためのAdversarial and Contrastive Variational Autoencoder (ACVAE) と呼ばれる新しい手法を提案する。
まず,本モデルが高品質な潜在変数を生成することを可能にするadversarial variational bayesフレームワークの下で,シーケンス生成のためのadversarial trainingを導入する。
さらに、シーケンスをエンコードする場合、シーケンス内のグローバルおよびローカルの関係をキャプチャするために、繰り返しおよび畳み込み構造を適用します。
論文 参考訳(メタデータ) (2021-03-19T09:01:14Z) - Bayesian Attention Modules [65.52970388117923]
実装や最適化が容易な,スケーラブルな注目バージョンを提案する。
本実験は,提案手法が対応するベースラインに対して一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-10-20T20:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。