論文の概要: Model Merging by Uncertainty-Based Gradient Matching
- arxiv url: http://arxiv.org/abs/2310.12808v2
- Date: Fri, 23 Aug 2024 16:25:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-26 20:18:44.225051
- Title: Model Merging by Uncertainty-Based Gradient Matching
- Title(参考訳): 不確実性に基づくグラディエントマッチングによるモデルマージ
- Authors: Nico Daheim, Thomas Möllenhoff, Edoardo Maria Ponti, Iryna Gurevych, Mohammad Emtiyaz Khan,
- Abstract要約: ミスマッチを減らすことで性能を改善するための不確実性に基づく新しいスキームを提案する。
我々の新しい手法は、大きな言語モデルと視覚変換器に一貫した改善をもたらす。
- 参考スコア(独自算出の注目度): 70.54580972266096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Models trained on different datasets can be merged by a weighted-averaging of their parameters, but why does it work and when can it fail? Here, we connect the inaccuracy of weighted-averaging to mismatches in the gradients and propose a new uncertainty-based scheme to improve the performance by reducing the mismatch. The connection also reveals implicit assumptions in other schemes such as averaging, task arithmetic, and Fisher-weighted averaging. Our new method gives consistent improvements for large language models and vision transformers, both in terms of performance and robustness to hyperparameters. Code available here.
- Abstract(参考訳): 異なるデータセットでトレーニングされたモデルは、パラメータの重み付けによってマージすることができる。
ここでは、重み付きアベリングの不正確さを勾配のミスマッチに結びつけるとともに、ミスマッチを減らすことで性能を改善するための新しい不確実性ベースのスキームを提案する。
この接続はまた、平均化、タスク演算、フィッシャー重み付けといった他のスキームにおける暗黙の仮定を明らかにしている。
我々の新しい手法は、ハイパーパラメータの性能とロバスト性の両方の観点から、大きな言語モデルと視覚変換器に一貫した改善を提供する。
コードはこちら。
関連論文リスト
- Learning Layer-wise Equivariances Automatically using Gradients [66.81218780702125]
畳み込みは等価対称性をニューラルネットワークにエンコードし、より優れた一般化性能をもたらす。
対称性は、ネットワークが表現できる機能、事前に指定する必要、適応できない機能に対して、固定されたハード制約を提供する。
私たちのゴールは、勾配を使ってデータから自動的に学習できるフレキシブル対称性の制約を可能にすることです。
論文 参考訳(メタデータ) (2023-10-09T20:22:43Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Uncertainty Guided Adaptive Warping for Robust and Efficient Stereo
Matching [77.133400999703]
相関に基づくステレオマッチングは優れた性能を達成した。
固定モデルによる現在のメソッドは、さまざまなデータセットで均一に動作しない。
本稿では,ロバストなステレオマッチングのための相関を動的に計算する新しい視点を提案する。
論文 参考訳(メタデータ) (2023-07-26T09:47:37Z) - Faithful Heteroscedastic Regression with Neural Networks [2.2835610890984164]
パラメータマップにニューラルネットワークを使用するパラメトリックメソッドは、データ内の複雑な関係をキャプチャすることができる。
ヘテロスセダティックなモデルを生成するために最適化に2つの簡単な修正を加え、ホモスセダティックなモデルとほぼ同等の精度で推定する。
提案手法は,等しくフレキシブルな平均値のみのモデルの精度を維持しつつ,クラスごとの分散キャリブレーションも提供する。
論文 参考訳(メタデータ) (2022-12-18T22:34:42Z) - Merging Models with Fisher-Weighted Averaging [24.698591753644077]
我々は、複数のモデルを1つに“マージ”するモデル間で知識を伝達する、根本的に異なる方法を紹介します。
提案手法は,モデルのパラメータの重み付け平均を効果的に計算する。
マージ手順により、これまで探索されていなかった方法でモデルを組み合わせることが可能であることを示す。
論文 参考訳(メタデータ) (2021-11-18T17:59:35Z) - Closer Look at the Uncertainty Estimation in Semantic Segmentation under
Distributional Shift [2.05617385614792]
セマンティックセグメンテーションのタスクの不確かさをドメインシフトの異なるレベルで評価する。
単純な色変換は、既に強いベースラインを提供していることが示されている。
モデルのアンサンブルは、擬似ラベル生成を改善するために自己学習設定に利用された。
論文 参考訳(メタデータ) (2021-05-31T19:50:43Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z) - Learnable Bernoulli Dropout for Bayesian Deep Learning [53.79615543862426]
Learnable Bernoulli Dropout (LBD) は、他のモデルパラメータと共に最適化されたパラメータとしてドロップアウト率を考慮する新しいモデルに依存しないドロップアウトスキームである。
LBDは画像分類とセマンティックセグメンテーションにおける精度と不確実性の推定を改善する。
論文 参考訳(メタデータ) (2020-02-12T18:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。