論文の概要: Model Fusion via Optimal Transport
- arxiv url: http://arxiv.org/abs/1910.05653v6
- Date: Tue, 16 May 2023 17:57:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 20:41:42.498517
- Title: Model Fusion via Optimal Transport
- Title(参考訳): 最適輸送によるモデル融合
- Authors: Sidak Pal Singh and Martin Jaggi
- Abstract要約: ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
- 参考スコア(独自算出の注目度): 64.13185244219353
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Combining different models is a widely used paradigm in machine learning
applications. While the most common approach is to form an ensemble of models
and average their individual predictions, this approach is often rendered
infeasible by given resource constraints in terms of memory and computation,
which grow linearly with the number of models. We present a layer-wise model
fusion algorithm for neural networks that utilizes optimal transport to (soft-)
align neurons across the models before averaging their associated parameters.
We show that this can successfully yield "one-shot" knowledge transfer (i.e,
without requiring any retraining) between neural networks trained on
heterogeneous non-i.i.d. data. In both i.i.d. and non-i.i.d. settings , we
illustrate that our approach significantly outperforms vanilla averaging, as
well as how it can serve as an efficient replacement for the ensemble with
moderate fine-tuning, for standard convolutional networks (like VGG11),
residual networks (like ResNet18), and multi-layer perceptrons on CIFAR10,
CIFAR100, and MNIST. Finally, our approach also provides a principled way to
combine the parameters of neural networks with different widths, and we explore
its application for model compression. The code is available at the following
link, https://github.com/sidak/otfusion.
- Abstract(参考訳): 異なるモデルを組み合わせることは、機械学習アプリケーションで広く使われているパラダイムである。
最も一般的なアプローチは、モデルのアンサンブルを形成し、個々の予測平均を作ることであるが、このアプローチは、メモリと計算の観点で与えられたリソース制約によって、しばしば実現不可能にされる。
ニューラルネットワークに対する階層モデル融合アルゴリズムを提案する。これは、関連するパラメータを平均化する前に、モデル間の(ソフト)アライメントニューロンへの最適な輸送を利用する。
非i.i.d.データでトレーニングされたニューラルネットワーク間の"ワンショット"な知識伝達(つまり、リトレーニングを必要とせずに)を成功させることができることを示す。
i.d.と非i.d.の両方の設定において、我々のアプローチはバニラ平均化を著しく上回り、標準畳み込みネットワーク(VGG11など)、残留ネットワーク(ResNet18など)、CIFAR10、CIFAR100、MNIST上のマルチ層パーセプトロンに対して、アンサンブルを適度な微調整で効率的に置き換える役割を担っていることを示す。
最後に、ニューラルネットワークのパラメータを異なる幅で結合する原理的な方法も提案し、そのモデル圧縮への応用について検討する。
コードは、https://github.com/sidak/otfusion.com/というリンクで入手できる。
関連論文リスト
- BEND: Bagging Deep Learning Training Based on Efficient Neural Network Diffusion [56.9358325168226]
BEND(Efficient Neural Network Diffusion)に基づくバッグング深層学習学習アルゴリズムを提案する。
我々のアプローチは単純だが効果的であり、まず複数のトレーニングされたモデルの重みとバイアスを入力として、オートエンコーダと潜伏拡散モデルを訓練する。
提案したBENDアルゴリズムは,元のトレーニングモデルと拡散モデルの両方の平均および中央値の精度を一貫して向上させることができる。
論文 参考訳(メタデータ) (2024-03-23T08:40:38Z) - Explicit Foundation Model Optimization with Self-Attentive Feed-Forward
Neural Units [4.807347156077897]
バックプロパゲーションを用いた反復近似法はニューラルネットワークの最適化を可能にするが、大規模に使用すると計算コストがかかる。
本稿では、ニューラルネットワークのスケーリングコストを削減し、低リソースアプリケーションに高効率な最適化を提供する、ニューラルネットワークの最適化のための効率的な代替手段を提案する。
論文 参考訳(メタデータ) (2023-11-13T17:55:07Z) - Diffusion-Model-Assisted Supervised Learning of Generative Models for
Density Estimation [10.793646707711442]
本稿では,密度推定のための生成モデルを訓練するためのフレームワークを提案する。
スコアベース拡散モデルを用いてラベル付きデータを生成する。
ラベル付きデータが生成されると、シンプルな完全に接続されたニューラルネットワークをトレーニングして、教師付き方法で生成モデルを学ぶことができます。
論文 参考訳(メタデータ) (2023-10-22T23:56:19Z) - Heterogenous Memory Augmented Neural Networks [84.29338268789684]
ニューラルネットワークのための新しいヘテロジニアスメモリ拡張手法を提案する。
学習可能なメモリトークンをアテンション機構付きで導入することにより、膨大な計算オーバーヘッドを伴わずに性能を効果的に向上させることができる。
In-distriion (ID) と Out-of-distriion (OOD) の両方の条件下での様々な画像およびグラフベースのタスクに対するアプローチを示す。
論文 参考訳(メタデータ) (2023-10-17T01:05:28Z) - Layer-wise Linear Mode Connectivity [52.6945036534469]
ニューラルネットワークパラメータの平均化は、2つの独立したモデルの知識の直感的な方法である。
フェデレートラーニングにおいて最も顕著に用いられている。
私たちは、単一グループやグループを平均化するモデルの性能を分析します。
論文 参考訳(メタデータ) (2023-07-13T09:39:10Z) - Learning to Learn with Generative Models of Neural Network Checkpoints [71.06722933442956]
ニューラルネットワークのチェックポイントのデータセットを構築し,パラメータの生成モデルをトレーニングする。
提案手法は,幅広い損失プロンプトに対するパラメータの生成に成功している。
我々は、教師付きおよび強化学習における異なるニューラルネットワークアーキテクチャとタスクに本手法を適用した。
論文 参考訳(メタデータ) (2022-09-26T17:59:58Z) - Representing Random Utility Choice Models with Neural Networks [0.0]
ディープラーニングの成功に触発されて、ニューラルネットワークに基づく離散選択モデルであるRUMnetを提案する。
RUMnetsはサンプル平均近似を用いてエージェントのランダムなユーティリティ関数を定式化する。
RUMnetsは、2つの実世界のデータセットの精度の観点から、いくつかの選択肢モデリングや機械学習手法と競合することがわかった。
論文 参考訳(メタデータ) (2022-07-26T13:12:22Z) - An alternative approach to train neural networks using monotone
variational inequality [22.320632565424745]
本稿では,モノトーンベクトル場を用いたニューラルネットワークトレーニングの代替手法を提案する。
我々のアプローチは、事前訓練されたニューラルネットワークのより効率的な微調整に利用できる。
論文 参考訳(メタデータ) (2022-02-17T19:24:20Z) - Fully differentiable model discovery [0.0]
ニューラルネットワークに基づくサロゲートとスパースベイズ学習を組み合わせたアプローチを提案する。
我々の研究は、PINNを様々なタイプのニューラルネットワークアーキテクチャに拡張し、ニューラルネットワークベースのサロゲートをベイズパラメータ推論のリッチフィールドに接続する。
論文 参考訳(メタデータ) (2021-06-09T08:11:23Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。