Fugu-MT 論文翻訳(概要): Rethink Model Re-Basin and the Linear Mode Connectivity

論文の概要: Rethink Model Re-Basin and the Linear Mode Connectivity

arxiv url: http://arxiv.org/abs/2402.05966v1
Date: Mon, 5 Feb 2024 17:06:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-18 14:23:11.988645
Title: Rethink Model Re-Basin and the Linear Mode Connectivity
Title（参考訳）: Rethink Model Re-Basinと線形モード接続性
Authors: Xingyu Qu, Samuel Horvath
Abstract要約: 十分に広いモデルで、ほとんどのSGD解は同じ盆地に収束することができる。現在の再ベース戦略は、基盤となるメカニズムの包括的な理解が欠如しているため、有効性に制限されている。より直接的な分析手法を導入することにより、マッチングアルゴリズムと再正規化プロセスの相互作用を明らかにする。
参考スコア（独自算出の注目度）: 1.3597551064547502
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent studies suggest that with sufficiently wide models, most SGD solutions can, up to permutation, converge into the same basin. This phenomenon, known as the model re-basin regime, has significant implications for model averaging. However, current re-basin strategies are limited in effectiveness due to a lack of comprehensive understanding of underlying mechanisms. Addressing this gap, our work revisits standard practices and uncovers the frequent inadequacies of existing matching algorithms, which we show can be mitigated through proper re-normalization. By introducing a more direct analytical approach, we expose the interaction between matching algorithms and re-normalization processes. This perspective not only clarifies and refines previous findings but also facilitates novel insights. For instance, it connects the linear mode connectivity to pruning, motivating a lightweight yet effective post-pruning plug-in that can be directly merged with any existing pruning techniques. Our implementation is available at https://github.com/XingyuQu/rethink-re-basin.
Abstract（参考訳）: 最近の研究は、十分に広いモデルで、ほとんどのSGDソリューションは、置換まで同じ盆地に収束することができることを示唆している。この現象はモデル・リベース・レギュレーションとして知られ、モデル平均化に重大な影響を及ぼす。しかしながら、現在の再ベース戦略は、基礎メカニズムの包括的理解が欠如しているため、有効性が制限されている。このギャップに対処するため、我々の研究は標準のプラクティスを再考し、既存のマッチングアルゴリズムの頻繁な不整合を明らかにする。より直接的な分析手法を導入することにより、マッチングアルゴリズムと再正規化プロセスの相互作用を明らかにする。この視点は、以前の発見を明確化し、洗練するだけでなく、新しい洞察を促進する。例えば、リニアモード接続をプルーニングに接続し、既存のプルーニング技術と直接マージできる軽量で効果的なポストプルーニングプラグインを動機付けている。私たちの実装はhttps://github.com/xingyuqu/rethink-re-basinで利用可能です。

関連論文リスト

Solving Inverse Problems with FLAIR [59.02385492199431]
フローベースの潜在生成モデルは、驚くべき品質の画像を生成でき、テキスト・ツー・イメージ生成も可能である。本稿では,フローベース生成モデルを逆問題の前兆として活用する新しい学習自由変分フレームワークFLAIRを提案する。標準画像ベンチマークの結果、FLAIRは再現性やサンプルの多様性の観点から、既存の拡散法や流れ法よりも一貫して優れていることが示された。
論文参考訳（メタデータ） (2025-06-03T09:29:47Z)
Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文参考訳（メタデータ） (2025-05-21T07:16:44Z)
Self Distillation via Iterative Constructive Perturbations [0.2748831616311481]
本稿では,循環最適化手法を用いてモデルとその入力データを並列に最適化し,より優れたトレーニングを行う新しいフレームワークを提案する。モデルのパラメータをデータとデータに交互に変更することにより、本手法は適合性と一般化のギャップを効果的に解決する。
論文参考訳（メタデータ） (2025-05-20T13:15:27Z)
One-for-More: Continual Diffusion Model for Anomaly Detection [61.12622458367425]
異常検出法は拡散モデルを用いて任意の異常画像が与えられたときの正常サンプルの生成または再構成を行う。われわれは,拡散モデルが「重度忠実幻覚」と「破滅的な忘れ」に悩まされていることを発見した。本研究では,安定な連続学習を実現するために勾配予測を用いた連続拡散モデルを提案する。
論文参考訳（メタデータ） (2025-02-27T07:47:27Z)
Towards Scalable and Deep Graph Neural Networks via Noise Masking [59.058558158296265]
グラフニューラルネットワーク(GNN)は多くのグラフマイニングタスクで顕著に成功している。計算とストレージのコストが高いため、大きなグラフにスケールすることは困難です。既存のモデル単純化作業と互換性のあるプラグアンドプレイモジュールであるノイズマスキング(RMask)を用いたランダムウォークを提案する。
論文参考訳（メタデータ） (2024-12-19T07:48:14Z)
ConsistentFeature: A Plug-and-Play Component for Neural Network Regularization [0.32885740436059047]
過パラメータ化されたニューラルネットワークモデルは、トレーニングとテストセットの間に大きなパフォーマンスの相違をもたらすことが多い。モデルは異なるデータセットで異なる表現を学習する。適応的手法であるConsistentFeatureを提案し、同じトレーニングセットのランダムなサブセット間で特徴差を制約することでモデルを正規化する。
論文参考訳（メタデータ） (2024-12-02T13:21:31Z)
SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。 SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文参考訳（メタデータ） (2024-08-19T17:32:15Z)
Expressive and Generalizable Low-rank Adaptation for Large Models via Slow Cascaded Learning [55.5715496559514]
LoRA Slow Cascade Learning (LoRASC)は、LoRAの表現性と一般化能力を高めるために設計された革新的な技術である。提案手法は,混合低ランク適応を可能にするカスケード学習戦略により表現性を増強し,複雑なパターンをキャプチャするモデルの能力を高める。
論文参考訳（メタデータ） (2024-07-01T17:28:59Z)
Deep autoregressive density nets vs neural ensembles for model-based offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。 D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文参考訳（メタデータ） (2024-02-05T10:18:15Z)
Minusformer: Improving Time Series Forecasting by Progressively Learning Residuals [14.741951369068877]
ユビキタス時系列(TS)予測モデルでは,過度なオーバーフィッティングが生じる傾向にある。本稿では,深層的なブースティング・アンサンブル学習手法である二重ストリーム・サブトラクション機構を提案する。提案手法は既存の最先端手法よりも優れており,各データセットの平均性能は11.9%向上した。
論文参考訳（メタデータ） (2024-02-04T03:54:31Z)
AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。 AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文参考訳（メタデータ） (2023-10-04T04:26:33Z)
Sparse Model Soups: A Recipe for Improved Pruning via Model Averaging [24.64264715041198]
Sparse Model Soups (SMS) は,各プルー・リトレインサイクルを前フェーズから平均モデルに開始することでスパースモデルをマージする新しい手法である。 SMSはスパース性を保ち、スパースネットワークの利点を悪用し、モジュール化され、完全に並列化可能であり、IMPのパフォーマンスを大幅に改善する。
論文参考訳（メタデータ） (2023-06-29T08:49:41Z)
Exploiting Diffusion Prior for Real-World Image Super-Resolution [75.5898357277047]
本稿では,事前学習したテキスト・画像拡散モデルにカプセル化された事前知識を視覚的超解像に活用するための新しいアプローチを提案する。時間認識エンコーダを用いることで、事前学習した合成モデルを変更することなく、有望な復元結果が得られる。
論文参考訳（メタデータ） (2023-05-11T17:55:25Z)
Latent Autoregressive Source Separation [5.871054749661012]
本稿では,ベクトル量子化遅延自己回帰音源分離(入力信号を構成源にデミックスする)を導入する。分離法は, 自己回帰モデルが先行するベイズ式に依拠し, 付加トークンの潜在和に対して離散的(非パラメトリック)確率関数を構築した。
論文参考訳（メタデータ） (2023-01-09T17:32:00Z)
When to Update Your Model: Constrained Model-based Reinforcement Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文参考訳（メタデータ） (2022-10-15T17:57:43Z)
ClusterQ: Semantic Feature Distribution Alignment for Data-Free Quantization [111.12063632743013]
本稿では,ClusterQと呼ばれるデータフリーな量子化手法を提案する。意味的特徴のクラス間分離性を高めるために,特徴分布統計をクラスタ化し,整列する。また、クラス内分散を組み込んで、クラスワイドモードの崩壊を解決する。
論文参考訳（メタデータ） (2022-04-30T06:58:56Z)
Towards Evaluating Adaptivity of Model-Based Reinforcement Learning Methods [25.05409184943328]
モデルに基づく手法は, 局所的な環境変化に適応する能力に乏しいことを示す。適応的な振る舞いを損なう要素を特定し、深層モデルベースRLで頻繁に使用される基礎技術とリンクする。適応非線形モデルに基づく手法を構築する際の課題について考察する。
論文参考訳（メタデータ） (2022-04-25T06:45:16Z)
FOSTER: Feature Boosting and Compression for Class-Incremental Learning [52.603520403933985]
ディープニューラルネットワークは、新しいカテゴリーを学ぶ際に破滅的な忘れ方に悩まされる。本稿では,新たなカテゴリを適応的に学習するためのモデルとして,新しい2段階学習パラダイムFOSTERを提案する。
論文参考訳（メタデータ） (2022-04-10T11:38:33Z)
Measuring and Reducing Model Update Regression in Structured Prediction for NLP [31.86240946966003]
後方互換性は、新しいモデルが前者によって正しく処理されたケースに回帰しないことを要求する。本研究は、構造化予測タスクにおける更新回帰をモデル化する。本稿では,構造化出力の特性を考慮し,単純かつ効果的なバックワード・コングルエント・リグレード(BCR)を提案する。
論文参考訳（メタデータ） (2022-02-07T07:04:54Z)
Regression Bugs Are In Your Model! Measuring, Reducing and Analyzing Regressions In NLP Model Updates [68.09049111171862]
この研究は、NLPモデル更新における回帰エラーの定量化、低減、分析に重点を置いている。回帰フリーモデル更新を制約付き最適化問題に定式化する。モデルアンサンブルが回帰を減らす方法を実証的に分析します。
論文参考訳（メタデータ） (2021-05-07T03:33:00Z)
Adversarial and Contrastive Variational Autoencoder for Sequential Recommendation [25.37244686572865]
本稿では、逐次レコメンデーションのためのAdversarial and Contrastive Variational Autoencoder (ACVAE) と呼ばれる新しい手法を提案する。まず,本モデルが高品質な潜在変数を生成することを可能にするadversarial variational bayesフレームワークの下で,シーケンス生成のためのadversarial trainingを導入する。さらに、シーケンスをエンコードする場合、シーケンス内のグローバルおよびローカルの関係をキャプチャするために、繰り返しおよび畳み込み構造を適用します。
論文参考訳（メタデータ） (2021-03-19T09:01:14Z)
Bayesian Attention Modules [65.52970388117923]
実装や最適化が容易な,スケーラブルな注目バージョンを提案する。本実験は,提案手法が対応するベースラインに対して一貫した改善をもたらすことを示す。
論文参考訳（メタデータ） (2020-10-20T20:30:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。