論文の概要: Merging Models with Fisher-Weighted Averaging
- arxiv url: http://arxiv.org/abs/2111.09832v1
- Date: Thu, 18 Nov 2021 17:59:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 16:51:33.714254
- Title: Merging Models with Fisher-Weighted Averaging
- Title(参考訳): 漁獲量平均化によるマージングモデル
- Authors: Michael Matena and Colin Raffel
- Abstract要約: 我々は、複数のモデルを1つに“マージ”するモデル間で知識を伝達する、根本的に異なる方法を紹介します。
提案手法は,モデルのパラメータの重み付け平均を効果的に計算する。
マージ手順により、これまで探索されていなかった方法でモデルを組み合わせることが可能であることを示す。
- 参考スコア(独自算出の注目度): 24.698591753644077
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transfer learning provides a way of leveraging knowledge from one task when
learning another task. Performing transfer learning typically involves
iteratively updating a model's parameters through gradient descent on a
training dataset. In this paper, we introduce a fundamentally different method
for transferring knowledge across models that amounts to "merging" multiple
models into one. Our approach effectively involves computing a weighted average
of the models' parameters. We show that this averaging is equivalent to
approximately sampling from the posteriors of the model weights. While using an
isotropic Gaussian approximation works well in some cases, we also demonstrate
benefits by approximating the precision matrix via the Fisher information. In
sum, our approach makes it possible to combine the "knowledge" in multiple
models at an extremely low computational cost compared to standard
gradient-based training. We demonstrate that model merging achieves comparable
performance to gradient descent-based transfer learning on intermediate-task
training and domain adaptation problems. We also show that our merging
procedure makes it possible to combine models in previously unexplored ways. To
measure the robustness of our approach, we perform an extensive ablation on the
design of our algorithm.
- Abstract(参考訳): 転送学習は、あるタスクから別のタスクを学ぶときに知識を活用する方法を提供する。
転送学習は通常、トレーニングデータセットの勾配降下を通じてモデルのパラメータを反復的に更新する。
本稿では,複数のモデルを1つのモデルに"マージ"するモデル間で知識を伝達する,根本的に異なる手法を提案する。
提案手法は,モデルのパラメータの重み付け平均を効果的に計算する。
この平均化はモデル重みの後部からのおよそのサンプリングと等価であることを示す。
等方性ガウス近似を用いるとうまく機能する場合もあるが、フィッシャー情報を介して精度行列を近似する利点も示している。
まとめると、我々の手法は、標準的な勾配に基づく訓練に比べて計算コストが極端に低い複数のモデルで「知識」を組み合わせることができる。
モデルマージは,中間タスクトレーニングとドメイン適応問題において,勾配降下に基づく伝達学習と同等の性能を発揮することを実証する。
また、マージ手順により、これまで探索されていなかった方法でモデルを組み合わせることが可能であることを示す。
提案手法のロバスト性を評価するため,アルゴリズムの設計について広範囲にわたるアブレーションを行う。
関連論文リスト
- Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - Fisher Mask Nodes for Language Model Merging [0.0]
本稿では,トランスフォーマーの新たなモデルマージ手法について紹介し,フィッシャー重み付けにおける過去の研究成果とモデルプルーニングにおけるフィッシャー情報の利用について考察する。
提案手法は,BERTファミリーの各種モデルに対して,正規かつ顕著な性能向上を示し,計算コストのごく一部において,大規模フィッシャー重み付き平均値よりも優れていた。
論文 参考訳(メタデータ) (2024-03-14T21:52:26Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Deep Unfolding-based Weighted Averaging for Federated Learning in
Heterogeneous Environments [11.023081396326507]
フェデレートラーニング(Federated Learning)は、複数のクライアントによるモデル更新と、中央サーバによるアップデートの集約を反復する、協調的なモデルトレーニング手法である。
そこで本研究では, パラメータ調整法として, 深部展開法(deep unfolding)を用いる。
提案手法は,実世界の現実的なタスクを遂行できるような事前学習モデルを用いて,大規模学習モデルを扱うことができる。
論文 参考訳(メタデータ) (2022-12-23T08:20:37Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Transfer Learning with Gaussian Processes for Bayesian Optimization [9.933956770453438]
トランスファーラーニングのための階層型GPモデルについて統一的なビューを提供し、メソッド間の関係を分析する。
我々は,既存のアプローチと複雑性の両立する新しい閉形式GP転送モデルを開発した。
大規模実験における異なる手法の性能評価を行い、異なる移動学習手法の長所と短所を強調した。
論文 参考訳(メタデータ) (2021-11-22T14:09:45Z) - Distilling Interpretable Models into Human-Readable Code [71.11328360614479]
人間可読性は機械学習モデル解釈可能性にとって重要で望ましい標準である。
従来の方法を用いて解釈可能なモデルを訓練し,それを簡潔で可読なコードに抽出する。
本稿では,幅広いユースケースで効率的に,確実に高品質な結果を生成する分別線形曲線フィッティングアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2021-01-21T01:46:36Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。