論文の概要: Deep Model Fusion: A Survey
- arxiv url: http://arxiv.org/abs/2309.15698v1
- Date: Wed, 27 Sep 2023 14:40:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 13:12:12.064955
- Title: Deep Model Fusion: A Survey
- Title(参考訳): Deep Model Fusion: 調査
- Authors: Weishi Li, Yong Peng, Miao Zhang, Liang Ding, Han Hu, Li Shen
- Abstract要約: Deep Model fusion/mergingは、複数のディープラーニングモデルのパラメータや予測を単一のモデルにマージする、新たなテクニックである。
高い計算コスト、高次元パラメータ空間、異なる異種モデル間の干渉など、いくつかの課題に直面している。
- 参考スコア(独自算出の注目度): 37.39100741978586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep model fusion/merging is an emerging technique that merges the parameters
or predictions of multiple deep learning models into a single one. It combines
the abilities of different models to make up for the biases and errors of a
single model to achieve better performance. However, deep model fusion on
large-scale deep learning models (e.g., LLMs and foundation models) faces
several challenges, including high computational cost, high-dimensional
parameter space, interference between different heterogeneous models, etc.
Although model fusion has attracted widespread attention due to its potential
to solve complex real-world tasks, there is still a lack of complete and
detailed survey research on this technique. Accordingly, in order to understand
the model fusion method better and promote its development, we present a
comprehensive survey to summarize the recent progress. Specifically, we
categorize existing deep model fusion methods as four-fold: (1) "Mode
connectivity", which connects the solutions in weight space via a path of
non-increasing loss, in order to obtain better initialization for model fusion;
(2) "Alignment" matches units between neural networks to create better
conditions for fusion; (3) "Weight average", a classical model fusion method,
averages the weights of multiple models to obtain more accurate results closer
to the optimal solution; (4) "Ensemble learning" combines the outputs of
diverse models, which is a foundational technique for improving the accuracy
and robustness of the final model. In addition, we analyze the challenges faced
by deep model fusion and propose possible research directions for model fusion
in the future. Our review is helpful in deeply understanding the correlation
between different model fusion methods and practical application methods, which
can enlighten the research in the field of deep model fusion.
- Abstract(参考訳): deep model fusion/mergingは、複数のディープラーニングモデルのパラメータや予測を単一のものにマージする、新たなテクニックだ。
異なるモデルの能力を組み合わせて、1つのモデルのバイアスとエラーを補い、より良いパフォーマンスを達成する。
しかし、大規模ディープラーニングモデル(LLMや基礎モデルなど)における深層モデルの融合は、高い計算コスト、高次元パラメータ空間、異なる異種モデル間の干渉など、いくつかの課題に直面している。
モデル融合は複雑な実世界のタスクを解決できる可能性から広く注目されているが、この手法に関する完全な詳細な調査研究が不足している。
そこで本研究では,モデル融合法をよりよく理解し,開発を促進するために,最近の進歩を概観する包括的調査を行う。
Specifically, we categorize existing deep model fusion methods as four-fold: (1) "Mode connectivity", which connects the solutions in weight space via a path of non-increasing loss, in order to obtain better initialization for model fusion; (2) "Alignment" matches units between neural networks to create better conditions for fusion; (3) "Weight average", a classical model fusion method, averages the weights of multiple models to obtain more accurate results closer to the optimal solution; (4) "Ensemble learning" combines the outputs of diverse models, which is a foundational technique for improving the accuracy and robustness of the final model.
さらに,深層モデル融合が直面する課題を分析し,将来的なモデル融合研究の方向性を提案する。
本稿では,異なるモデル融合法と実用的応用法との相関関係を深く理解し,深層モデル融合の分野での研究を啓蒙する上で有用である。
関連論文リスト
- What Matters for Model Merging at Scale? [94.26607564817786]
モデルマージは、複数の専門家モデルとより有能な単一モデルを組み合わせることを目的としている。
これまでの研究は主に、いくつかの小さなモデルをマージすることに焦点を当ててきた。
本研究は,大規模モデルマージの有用性を体系的に評価する。
論文 参考訳(メタデータ) (2024-10-04T17:17:19Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities [89.40778301238642]
モデルマージは、機械学習コミュニティにおける効率的なエンパワーメント技術である。
これらの手法の体系的かつ徹底的なレビューに関する文献には大きなギャップがある。
論文 参考訳(メタデータ) (2024-08-14T16:58:48Z) - FusionBench: A Comprehensive Benchmark of Deep Model Fusion [78.80920533793595]
ディープモデル融合(Deep Model fusion)とは、複数のディープニューラルネットワークの予測やパラメータを単一のモデルに統合する手法である。
FusionBenchは、ディープモデル融合に特化した最初の包括的なベンチマークである。
論文 参考訳(メタデータ) (2024-06-05T13:54:28Z) - Multifidelity Surrogate Models: A New Data Fusion Perspective [0.0]
多要素サロゲートモデリングは、異なるソースからの様々な精度とコストのデータを組み合わせる。
戦略的に低忠実度モデルを用いて、迅速な評価を行い、計算資源を節約している。
これは不確実性に対処し、単一忠実性モデルの限界を超えることで意思決定を改善する。
論文 参考訳(メタデータ) (2024-04-21T11:21:47Z) - Fuse to Forget: Bias Reduction and Selective Memorization through Model Fusion [21.853861315322824]
モデル融合が不要な知識の削減に有効かどうかを考察する。
本稿では,3つのシナリオにおけるモデル融合の効果について検討する。
論文 参考訳(メタデータ) (2023-11-13T19:02:56Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。