論文の概要: Deep Model Fusion: A Survey
- arxiv url: http://arxiv.org/abs/2309.15698v1
- Date: Wed, 27 Sep 2023 14:40:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 13:12:12.064955
- Title: Deep Model Fusion: A Survey
- Title(参考訳): Deep Model Fusion: 調査
- Authors: Weishi Li, Yong Peng, Miao Zhang, Liang Ding, Han Hu, Li Shen
- Abstract要約: Deep Model fusion/mergingは、複数のディープラーニングモデルのパラメータや予測を単一のモデルにマージする、新たなテクニックである。
高い計算コスト、高次元パラメータ空間、異なる異種モデル間の干渉など、いくつかの課題に直面している。
- 参考スコア(独自算出の注目度): 37.39100741978586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep model fusion/merging is an emerging technique that merges the parameters
or predictions of multiple deep learning models into a single one. It combines
the abilities of different models to make up for the biases and errors of a
single model to achieve better performance. However, deep model fusion on
large-scale deep learning models (e.g., LLMs and foundation models) faces
several challenges, including high computational cost, high-dimensional
parameter space, interference between different heterogeneous models, etc.
Although model fusion has attracted widespread attention due to its potential
to solve complex real-world tasks, there is still a lack of complete and
detailed survey research on this technique. Accordingly, in order to understand
the model fusion method better and promote its development, we present a
comprehensive survey to summarize the recent progress. Specifically, we
categorize existing deep model fusion methods as four-fold: (1) "Mode
connectivity", which connects the solutions in weight space via a path of
non-increasing loss, in order to obtain better initialization for model fusion;
(2) "Alignment" matches units between neural networks to create better
conditions for fusion; (3) "Weight average", a classical model fusion method,
averages the weights of multiple models to obtain more accurate results closer
to the optimal solution; (4) "Ensemble learning" combines the outputs of
diverse models, which is a foundational technique for improving the accuracy
and robustness of the final model. In addition, we analyze the challenges faced
by deep model fusion and propose possible research directions for model fusion
in the future. Our review is helpful in deeply understanding the correlation
between different model fusion methods and practical application methods, which
can enlighten the research in the field of deep model fusion.
- Abstract(参考訳): deep model fusion/mergingは、複数のディープラーニングモデルのパラメータや予測を単一のものにマージする、新たなテクニックだ。
異なるモデルの能力を組み合わせて、1つのモデルのバイアスとエラーを補い、より良いパフォーマンスを達成する。
しかし、大規模ディープラーニングモデル(LLMや基礎モデルなど)における深層モデルの融合は、高い計算コスト、高次元パラメータ空間、異なる異種モデル間の干渉など、いくつかの課題に直面している。
モデル融合は複雑な実世界のタスクを解決できる可能性から広く注目されているが、この手法に関する完全な詳細な調査研究が不足している。
そこで本研究では,モデル融合法をよりよく理解し,開発を促進するために,最近の進歩を概観する包括的調査を行う。
Specifically, we categorize existing deep model fusion methods as four-fold: (1) "Mode connectivity", which connects the solutions in weight space via a path of non-increasing loss, in order to obtain better initialization for model fusion; (2) "Alignment" matches units between neural networks to create better conditions for fusion; (3) "Weight average", a classical model fusion method, averages the weights of multiple models to obtain more accurate results closer to the optimal solution; (4) "Ensemble learning" combines the outputs of diverse models, which is a foundational technique for improving the accuracy and robustness of the final model.
さらに,深層モデル融合が直面する課題を分析し,将来的なモデル融合研究の方向性を提案する。
本稿では,異なるモデル融合法と実用的応用法との相関関係を深く理解し,深層モデル融合の分野での研究を啓蒙する上で有用である。
関連論文リスト
- Fuse to Forget: Bias Reduction and Selective Memorization through Model
Fusion [24.561550036543306]
言語モデルにおいて,モデル融合が学習したショートカット,社会的バイアス,記憶能力にどのように干渉するかについて検討する。
脱バイアスツールとしてのモデル融合の可能性を示し、言語モデルに関連するプライバシー問題に対処する上での有効性を示す。
論文 参考訳(メタデータ) (2023-11-13T19:02:56Z) - FedDRL: A Trustworthy Federated Learning Model Fusion Method Based on
Staged Reinforcement Learning [5.645524194231795]
2段階のアプローチに基づく強化学習を用いたモデル融合手法であるFedDRLを提案する。
最初の段階では、我々の手法は悪意あるモデルをフィルタリングし、信頼されたクライアントモデルを選択してモデル融合に参加する。
第2段階では、FedDRLアルゴリズムは信頼されたクライアントモデルの重みを適応的に調整し、最適なグローバルモデルを集約する。
論文 参考訳(メタデータ) (2023-07-25T17:24:32Z) - Understanding Parameter Sharing in Transformers [53.75988363281843]
トランスフォーマーに関するこれまでの研究は、異なるレイヤでパラメータを共有することに集中しており、モデルの深さを増大させることで、限られたパラメータを持つモデルの性能を向上させることができる。
このアプローチの成功は, モデル複雑性の増加により, ごく一部に過ぎず, 収束性の向上に大きく寄与することを示す。
8つの機械翻訳タスクの実験結果から,パラメータ共有モデルのモデル複雑性を半分に抑えて,我々のモデルが競合性能を達成することが示された。
論文 参考訳(メタデータ) (2023-06-15T10:48:59Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Model-agnostic multi-objective approach for the evolutionary discovery
of mathematical models [55.41644538483948]
現代のデータ科学では、どの部分がより良い結果を得るために置き換えられるかというモデルの性質を理解することがより興味深い。
合成データ駆動型モデル学習において,多目的進化最適化を用いてアルゴリズムの所望特性を求める。
論文 参考訳(メタデータ) (2021-07-07T11:17:09Z) - GAN Cocktail: mixing GANs without dataset access [18.664733153082146]
実世界でしばしば発生する2つの制約を考えると、モデルマージの問題に取り組みます。
第一段階では、モデルルートと呼ぶ手法により、全てのモデルの重みを同じパラメータ空間に変換する。
第2段階では、ルートモデルの重みを平均化し、元のトレーニングされたモデルによって生成されたデータのみを使用して、特定のドメイン毎に微調整することで、ルートモデルとマージする。
論文 参考訳(メタデータ) (2021-06-07T17:59:04Z) - Towards a Better Understanding of Linear Models for Recommendation [28.422943262159933]
2つの基本回帰および行列分解法に対する閉形式解の導出と解析を行う。
閉形式解に対するパラメータ(ハイパーパラメータ)の探索に新しい学習アルゴリズムを導入する。
実験の結果、基本モデルとその閉形式解は、確かに最先端モデルと非常に競合することを示した。
論文 参考訳(メタデータ) (2021-05-27T04:17:04Z) - Model Complexity of Deep Learning: A Survey [79.20117679251766]
深層学習におけるモデル複雑性に関する最新の研究を体系的に概観します。
本稿では,これら2つのカテゴリに関する既存研究について,モデルフレームワーク,モデルサイズ,最適化プロセス,データ複雑性の4つの重要な要因について概説する。
論文 参考訳(メタデータ) (2021-03-08T22:39:32Z) - Hybrid modeling: Applications in real-time diagnosis [64.5040763067757]
我々は、機械学習にインスパイアされたモデルと物理モデルを組み合わせた、新しいハイブリッドモデリングアプローチの概要を述べる。
このようなモデルをリアルタイム診断に利用しています。
論文 参考訳(メタデータ) (2020-03-04T00:44:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。