Fugu-MT 論文翻訳(概要): Rethinking Model Re-Basin and Linear Mode Connectivity

論文の概要: Rethinking Model Re-Basin and Linear Mode Connectivity

arxiv url: http://arxiv.org/abs/2402.05966v2
Date: Tue, 9 Jul 2024 09:23:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-11 00:01:00.993710
Title: Rethinking Model Re-Basin and Linear Mode Connectivity
Title（参考訳）: モデル再ベースと線形モード接続性の再考
Authors: Xingyu Qu, Samuel Horvath,
Abstract要約: 我々は再正規化を再スケーリングと再シフトに分解し、再スケーリングが再正規化に重要な役割を果たしていることを明らかにする。統合モデルでは, 活性化崩壊とマグニチュード崩壊の問題に悩まされている。本稿では,リベースとプルーニングを統一する新たな視点を提案し,軽量で効果的なポストプルーニング手法を導出する。
参考スコア（独自算出の注目度）: 1.1510009152620668
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent studies suggest that with sufficiently wide models, most SGD solutions can, up to permutation, converge into the same basin. This phenomenon, known as the model re-basin regime, has significant implications for model averaging by ensuring the linear mode connectivity. However, current re-basin strategies are ineffective in many scenarios due to a lack of comprehensive understanding of underlying mechanisms. Addressing this gap, this paper provides novel insights into understanding and improving the standard practice. Firstly, we decompose re-normalization into rescaling and reshift, uncovering that rescaling plays a crucial role in re-normalization while re-basin performance is sensitive to shifts in model activation. The finding calls for a more nuanced handling of the activation shift. Secondly, we identify that the merged model suffers from the issue of activation collapse and magnitude collapse. Varying the learning rate, weight decay, and initialization method can mitigate the issues and improve model performance. Lastly, we propose a new perspective to unify the re-basin and pruning, under which a lightweight yet effective post-pruning technique is derived, which can significantly improve the model performance after pruning. Our implementation is available at https://github.com/XingyuQu/rethink-re-basin.
Abstract（参考訳）: 最近の研究は、十分に広いモデルで、ほとんどのSGDソリューションは、置換まで同じ盆地に収束することができることを示唆している。この現象は、リニアモード接続を確実にすることで、モデル平均化に重大な影響を及ぼす。しかし、現在の再ベース戦略は、基盤となるメカニズムの包括的な理解が欠如しているため、多くのシナリオでは効果がない。このギャップに対処するため,本論文では,標準実践の理解と改善に関する新たな知見を提供する。まず、再正規化を再スケーリングと再シフトに分解し、再スケーリングが再正規化において重要な役割を担い、リベース性能はモデルアクティベーションのシフトに敏感であることを明らかにする。この発見は、アクティベーションシフトをより微妙に扱うことを要求する。第2に,統合モデルが活性化崩壊とマグニチュード崩壊の問題に悩まされていることを確かめる。学習速度、体重減少、初期化の方法は、問題を緩和し、モデル性能を向上させることができる。最後に,再ベースとプルーニングを統一する新たな視点を提案し,プルーニング後のモデル性能を大幅に向上させる軽量で効果的なポストプルーニング手法を導出する。私たちの実装はhttps://github.com/XingyuQu/rethink-re-basin.comで公開されています。

関連論文リスト

Solving Inverse Problems with FLAIR [59.02385492199431]
フローベースの潜在生成モデルは、驚くべき品質の画像を生成でき、テキスト・ツー・イメージ生成も可能である。本稿では,フローベース生成モデルを逆問題の前兆として活用する新しい学習自由変分フレームワークFLAIRを提案する。標準画像ベンチマークの結果、FLAIRは再現性やサンプルの多様性の観点から、既存の拡散法や流れ法よりも一貫して優れていることが示された。
論文参考訳（メタデータ） (2025-06-03T09:29:47Z)
Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文参考訳（メタデータ） (2025-05-21T07:16:44Z)
Self Distillation via Iterative Constructive Perturbations [0.2748831616311481]
本稿では,循環最適化手法を用いてモデルとその入力データを並列に最適化し,より優れたトレーニングを行う新しいフレームワークを提案する。モデルのパラメータをデータとデータに交互に変更することにより、本手法は適合性と一般化のギャップを効果的に解決する。
論文参考訳（メタデータ） (2025-05-20T13:15:27Z)
One-for-More: Continual Diffusion Model for Anomaly Detection [61.12622458367425]
異常検出法は拡散モデルを用いて任意の異常画像が与えられたときの正常サンプルの生成または再構成を行う。われわれは,拡散モデルが「重度忠実幻覚」と「破滅的な忘れ」に悩まされていることを発見した。本研究では,安定な連続学習を実現するために勾配予測を用いた連続拡散モデルを提案する。
論文参考訳（メタデータ） (2025-02-27T07:47:27Z)
Towards Scalable and Deep Graph Neural Networks via Noise Masking [59.058558158296265]
グラフニューラルネットワーク(GNN)は多くのグラフマイニングタスクで顕著に成功している。計算とストレージのコストが高いため、大きなグラフにスケールすることは困難です。既存のモデル単純化作業と互換性のあるプラグアンドプレイモジュールであるノイズマスキング(RMask)を用いたランダムウォークを提案する。
論文参考訳（メタデータ） (2024-12-19T07:48:14Z)
ConsistentFeature: A Plug-and-Play Component for Neural Network Regularization [0.32885740436059047]
過パラメータ化されたニューラルネットワークモデルは、トレーニングとテストセットの間に大きなパフォーマンスの相違をもたらすことが多い。モデルは異なるデータセットで異なる表現を学習する。適応的手法であるConsistentFeatureを提案し、同じトレーニングセットのランダムなサブセット間で特徴差を制約することでモデルを正規化する。
論文参考訳（メタデータ） (2024-12-02T13:21:31Z)
SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。 SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文参考訳（メタデータ） (2024-08-19T17:32:15Z)
Expressive and Generalizable Low-rank Adaptation for Large Models via Slow Cascaded Learning [55.5715496559514]
LoRA Slow Cascade Learning (LoRASC)は、LoRAの表現性と一般化能力を高めるために設計された革新的な技術である。提案手法は,混合低ランク適応を可能にするカスケード学習戦略により表現性を増強し,複雑なパターンをキャプチャするモデルの能力を高める。
論文参考訳（メタデータ） (2024-07-01T17:28:59Z)
Deep autoregressive density nets vs neural ensembles for model-based offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。 D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文参考訳（メタデータ） (2024-02-05T10:18:15Z)
Minusformer: Improving Time Series Forecasting by Progressively Learning Residuals [14.741951369068877]
ユビキタス時系列(TS)予測モデルでは,過度なオーバーフィッティングが生じる傾向にある。本稿では,深層的なブースティング・アンサンブル学習手法である二重ストリーム・サブトラクション機構を提案する。提案手法は既存の最先端手法よりも優れており,各データセットの平均性能は11.9%向上した。
論文参考訳（メタデータ） (2024-02-04T03:54:31Z)
AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。 AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文参考訳（メタデータ） (2023-10-04T04:26:33Z)
Sparse Model Soups: A Recipe for Improved Pruning via Model Averaging [24.64264715041198]
Sparse Model Soups (SMS) は,各プルー・リトレインサイクルを前フェーズから平均モデルに開始することでスパースモデルをマージする新しい手法である。 SMSはスパース性を保ち、スパースネットワークの利点を悪用し、モジュール化され、完全に並列化可能であり、IMPのパフォーマンスを大幅に改善する。
論文参考訳（メタデータ） (2023-06-29T08:49:41Z)
Exploiting Diffusion Prior for Real-World Image Super-Resolution [75.5898357277047]
本稿では,事前学習したテキスト・画像拡散モデルにカプセル化された事前知識を視覚的超解像に活用するための新しいアプローチを提案する。時間認識エンコーダを用いることで、事前学習した合成モデルを変更することなく、有望な復元結果が得られる。
論文参考訳（メタデータ） (2023-05-11T17:55:25Z)
Latent Autoregressive Source Separation [5.871054749661012]
本稿では,ベクトル量子化遅延自己回帰音源分離(入力信号を構成源にデミックスする)を導入する。分離法は, 自己回帰モデルが先行するベイズ式に依拠し, 付加トークンの潜在和に対して離散的(非パラメトリック)確率関数を構築した。
論文参考訳（メタデータ） (2023-01-09T17:32:00Z)
When to Update Your Model: Constrained Model-based Reinforcement Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文参考訳（メタデータ） (2022-10-15T17:57:43Z)
ClusterQ: Semantic Feature Distribution Alignment for Data-Free Quantization [111.12063632743013]
本稿では,ClusterQと呼ばれるデータフリーな量子化手法を提案する。意味的特徴のクラス間分離性を高めるために,特徴分布統計をクラスタ化し,整列する。また、クラス内分散を組み込んで、クラスワイドモードの崩壊を解決する。
論文参考訳（メタデータ） (2022-04-30T06:58:56Z)
Towards Evaluating Adaptivity of Model-Based Reinforcement Learning Methods [25.05409184943328]
モデルに基づく手法は, 局所的な環境変化に適応する能力に乏しいことを示す。適応的な振る舞いを損なう要素を特定し、深層モデルベースRLで頻繁に使用される基礎技術とリンクする。適応非線形モデルに基づく手法を構築する際の課題について考察する。
論文参考訳（メタデータ） (2022-04-25T06:45:16Z)
FOSTER: Feature Boosting and Compression for Class-Incremental Learning [52.603520403933985]
ディープニューラルネットワークは、新しいカテゴリーを学ぶ際に破滅的な忘れ方に悩まされる。本稿では,新たなカテゴリを適応的に学習するためのモデルとして,新しい2段階学習パラダイムFOSTERを提案する。
論文参考訳（メタデータ） (2022-04-10T11:38:33Z)
Measuring and Reducing Model Update Regression in Structured Prediction for NLP [31.86240946966003]
後方互換性は、新しいモデルが前者によって正しく処理されたケースに回帰しないことを要求する。本研究は、構造化予測タスクにおける更新回帰をモデル化する。本稿では,構造化出力の特性を考慮し,単純かつ効果的なバックワード・コングルエント・リグレード(BCR)を提案する。
論文参考訳（メタデータ） (2022-02-07T07:04:54Z)
Regression Bugs Are In Your Model! Measuring, Reducing and Analyzing Regressions In NLP Model Updates [68.09049111171862]
この研究は、NLPモデル更新における回帰エラーの定量化、低減、分析に重点を置いている。回帰フリーモデル更新を制約付き最適化問題に定式化する。モデルアンサンブルが回帰を減らす方法を実証的に分析します。
論文参考訳（メタデータ） (2021-05-07T03:33:00Z)
Adversarial and Contrastive Variational Autoencoder for Sequential Recommendation [25.37244686572865]
本稿では、逐次レコメンデーションのためのAdversarial and Contrastive Variational Autoencoder (ACVAE) と呼ばれる新しい手法を提案する。まず,本モデルが高品質な潜在変数を生成することを可能にするadversarial variational bayesフレームワークの下で,シーケンス生成のためのadversarial trainingを導入する。さらに、シーケンスをエンコードする場合、シーケンス内のグローバルおよびローカルの関係をキャプチャするために、繰り返しおよび畳み込み構造を適用します。
論文参考訳（メタデータ） (2021-03-19T09:01:14Z)
Bayesian Attention Modules [65.52970388117923]
実装や最適化が容易な,スケーラブルな注目バージョンを提案する。本実験は,提案手法が対応するベースラインに対して一貫した改善をもたらすことを示す。
論文参考訳（メタデータ） (2020-10-20T20:30:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。