論文の概要: Rethinking Weight-Averaged Model-merging
- arxiv url: http://arxiv.org/abs/2411.09263v2
- Date: Thu, 21 Nov 2024 10:46:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:16:42.058882
- Title: Rethinking Weight-Averaged Model-merging
- Title(参考訳): 重量平均モデルマージの再考
- Authors: Hu Wang, Congbo Ma, Ibrahim Almakky, Ian Reid, Gustavo Carneiro, Mohammad Yaqub,
- Abstract要約: 重み付きモデルマージはディープラーニングにおいて強力なアプローチとして登場し、微調整や再訓練なしにモデル性能を向上させることができる。
本稿では,この手法を3つの新しい視点から検討し,重み付きモデルマージがどのように動作するのか,なぜより深い知見を提供する。
私たちの発見は、平均的なモデルマージの"ブラックボックス"に光を当て、貴重な洞察と実践的なレコメンデーションを提供しました。
- 参考スコア(独自算出の注目度): 15.2881959315021
- License:
- Abstract: Weight-averaged model-merging has emerged as a powerful approach in deep learning, capable of enhancing model performance without fine-tuning or retraining. However, the underlying mechanisms that explain its effectiveness remain largely unexplored. In this paper, we investigate this technique from three novel perspectives to provide deeper insights into how and why weight-averaged model-merging works: (1) we examine the intrinsic patterns captured by the learning of the model weights, through the visualizations of their patterns on several datasets, showing that these weights often encode structured and interpretable patterns; (2) we investigate model ensemble merging strategies based on averaging on weights versus averaging on features, providing detailed analyses across diverse architectures and datasets; and (3) we explore the impact on model-merging prediction stability in terms of changing the parameter magnitude, revealing insights into the way of weight averaging works as regularization by showing the robustness across different parameter scales. Our findings shed light on the "black box" of weight-averaged model-merging, offering valuable insights and practical recommendations that advance the model-merging process.
- Abstract(参考訳): 重み付きモデルマージはディープラーニングにおいて強力なアプローチとして登場し、微調整や再訓練なしにモデル性能を向上させることができる。
しかし、その効果を説明する基盤となるメカニズムはほとんど未解明のままである。
本稿では,本手法を3つの新しい視点から検討し,(1)モデル重みの学習によって得られた本質的なパターンを複数のデータセット上で可視化し,それらの重みがしばしば構造的および解釈可能なパターンを符号化すること,(2)モデルアンサンブルのマージ戦略について検討すること,(3)モデルアンサンブルのマージ戦略を多種多様なアーキテクチャやデータセットの詳細な分析を提供すること,(3)パラメータサイズの変化によるモデルマージ予測安定性への影響について考察し,パラメータスケールの整合性を示すことにより,平均値の正当性を示す。
私たちの発見は、平均的なモデルマージの“ブラックボックス”に光を当て、モデルマージプロセスを進めるための貴重な洞察と実践的なレコメンデーションを提供しました。
関連論文リスト
- A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。
ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。
当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文 参考訳(メタデータ) (2024-11-20T20:38:56Z) - Learning-based Models for Vulnerability Detection: An Extensive Study [3.1317409221921144]
我々は、最先端の学習ベースアプローチの2つのタイプを広範かつ包括的に調査する。
本稿では,シーケンスベースモデルの優先度と,グラフベースモデルの限定能力について実験的に検証する。
論文 参考訳(メタデータ) (2024-08-14T13:01:30Z) - Has Your Pretrained Model Improved? A Multi-head Posterior Based
Approach [25.927323251675386]
我々は、世界的知識の源として各エンティティに関連するメタ機能を活用し、モデルからエンティティ表現を採用する。
本稿では,これらの表現とメタ機能との整合性を,事前学習モデルの評価指標として用いることを提案する。
提案手法の有効性は,関係データセットを用いたモデル,大規模言語モデル,画像モデルなど,様々な領域で実証されている。
論文 参考訳(メタデータ) (2024-01-02T17:08:26Z) - Aggregation Weighting of Federated Learning via Generalization Bound
Estimation [65.8630966842025]
フェデレートラーニング(FL)は通常、サンプル比率によって決定される重み付けアプローチを使用して、クライアントモデルパラメータを集約する。
上記の重み付け法を,各局所モデルの一般化境界を考慮した新しい戦略に置き換える。
論文 参考訳(メタデータ) (2023-11-10T08:50:28Z) - Revisiting Implicit Models: Sparsity Trade-offs Capability in
Weight-tied Model for Vision Tasks [4.872984658007499]
ディープ平衡モデル(Deep Equilibrium Models, DEQ)のような暗黙のモデルは、無限層のモデルを訓練する能力によって、コミュニティにおいて大きな注目を集めている。
暗黙のモデルの行を再検討し、それらを元の重み付けモデルに遡る。
驚くべきことに、重み付けモデルの方がDECの変種と比較して、より効率的で、安定であり、視覚タスク上でも効率的である。
論文 参考訳(メタデータ) (2023-07-16T11:45:35Z) - Representer Point Selection for Explaining Regularized High-dimensional
Models [105.75758452952357]
本稿では,高次元表現器と呼ぶサンプルベース説明のクラスを紹介する。
私たちのワークホースは、一般化された高次元モデルに対する新しい代表者定理である。
提案手法の実証的性能について,実世界の2進分類データセットと2つの推薦システムデータセットを用いて検討した。
論文 参考訳(メタデータ) (2023-05-31T16:23:58Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Distributional Depth-Based Estimation of Object Articulation Models [21.046351215949525]
本研究では,奥行き画像から直接,調音モデルパラメータの分布を効率よく学習する手法を提案する。
私たちのコアコントリビューションには、剛体変換に対する分布の新しい表現が含まれています。
本稿では,カテゴリに依存しない調音モデル推定を行う新しい深層学習手法DUST-netを提案する。
論文 参考訳(メタデータ) (2021-08-12T17:44:51Z) - Structured learning of rigid-body dynamics: A survey and unified view
from a robotics perspective [5.597839822252915]
剛体力学とデータ駆動モデリング技術を組み合わせた回帰モデルについて検討した。
我々は、ニューラルネットワークやガウス過程などのデータ駆動回帰モデルと分析モデル先行モデルの組み合わせに関する統一的な見解を提供する。
論文 参考訳(メタデータ) (2020-12-11T11:26:48Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。