論文の概要: It's Morphing Time: Unleashing the Potential of Multiple LLMs via Multi-objective Optimization
- arxiv url: http://arxiv.org/abs/2407.00487v1
- Date: Sat, 29 Jun 2024 16:34:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 02:56:15.238553
- Title: It's Morphing Time: Unleashing the Potential of Multiple LLMs via Multi-objective Optimization
- Title(参考訳): モーフィング時間:多目的最適化による複数LLMの可能性の解放
- Authors: Bingdong Li, Zixiang Di, Yanting Yang, Hong Qian, Peng Yang, Hao Hao, Ke Tang, Aimin Zhou,
- Abstract要約: モデルマージの目標は、複数のモデルを組み合わせることであり、それぞれが異なるタスクで優れており、個々のソースモデルよりも優れた1つのモデルにまとめることである。
既存の方法は人間の直感とカスタマイズ戦略に大きく依存している。
多目的最適化アルゴリズムを用いて最適なマージ構成の探索を自動化するMM-MO法を提案する。
- 参考スコア(独自算出の注目度): 16.54335356612006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce a novel approach for large language model merging via black-box multi-objective optimization algorithms. The goal of model merging is to combine multiple models, each excelling in different tasks, into a single model that outperforms any of the individual source models. However, model merging faces two significant challenges: First, existing methods rely heavily on human intuition and customized strategies. Second, parameter conflicts often arise during merging, and while methods like DARE [1] can alleviate this issue, they tend to stochastically drop parameters, risking the loss of important delta parameters. To address these challenges, we propose the MM-MO method, which automates the search for optimal merging configurations using multi-objective optimization algorithms, eliminating the need for human intuition. During the configuration searching process, we use estimated performance across multiple diverse tasks as optimization objectives in order to alleviate the parameter conflicting between different source models without losing crucial delta parameters. We conducted comparative experiments with other mainstream model merging methods, demonstrating that our method consistently outperforms them. Moreover, our experiments reveal that even task types not explicitly targeted as optimization objectives show performance improvements, indicating that our method enhances the overall potential of the model rather than merely overfitting to specific task types. This approach provides a significant advancement in model merging techniques, offering a robust and plug-and-play solution for integrating diverse models into a unified, high-performing model.
- Abstract(参考訳): 本稿では,ブラックボックス多目的最適化アルゴリズムを用いた大規模言語モデル統合のための新しいアプローチを提案する。
モデルマージの目標は、複数のモデルを組み合わせることであり、それぞれが異なるタスクで優れており、個々のソースモデルよりも優れた1つのモデルにまとめることである。
まず、既存の手法は人間の直感とカスタマイズされた戦略に大きく依存します。
第2に、パラメータの衝突はマージ時に発生することが多く、DARE [1]のようなメソッドがこの問題を軽減する一方で、パラメータを確率的にドロップする傾向にあり、重要なデルタパラメータが失われるリスクがある。
これらの課題に対処するために,多目的最適化アルゴリズムを用いた最適マージ構成の探索を自動化し,人間の直感を不要とするMM-MO手法を提案する。
構成探索プロセスでは,複数のタスクにまたがる推定性能を最適化の目的として利用し,重要なデルタパラメータを失うことなく,異なるソースモデル間のパラメータの衝突を軽減する。
我々は、他の主流モデルマージ手法との比較実験を行い、我々の手法がそれらを一貫して上回ることを示した。
さらに, 最適化対象として明示的にターゲットされていないタスクタイプにおいても, 性能の向上が示され, 特定のタスクタイプに過度に適合するのではなく, モデル全体のポテンシャルを高めることが示唆された。
このアプローチは、多様なモデルを統一されたハイパフォーマンスなモデルに統合するための堅牢でプラグアンドプレイなソリューションを提供する。
関連論文リスト
- Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。
本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。
特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文 参考訳(メタデータ) (2024-06-14T07:16:18Z) - MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation [80.47072100963017]
モデルマージは、同じトレーニング済みモデルから細調整された複数のシングルタスクモデルをマルチタスクモデルに結合する効果的なアプローチである。
既存のモデルマージ手法は、平均的なタスク精度の向上に重点を置いている。
Amortized Pareto Front (MAP) を用いた新しい低計算アルゴリズム Model Merging を導入する。
論文 参考訳(メタデータ) (2024-06-11T17:55:25Z) - DPPA: Pruning Method for Large Language Model to Model Merging [39.13317231533299]
本稿では、複雑な微調整モデルを統合するという課題に対処するため、DPPA(Dynamic Pruning Partition Amplification)と呼ばれる2段階の手法を提案する。
提案手法は,ドメイン固有のパラメータの20%しか保持せず,他の手法に匹敵する性能を提供する。
提案手法では, プレニング後の性能が優れており, モデルマージにおける性能が20%近く向上した。
論文 参考訳(メタデータ) (2024-03-05T09:12:49Z) - Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。
従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。
本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文 参考訳(メタデータ) (2024-02-01T08:58:57Z) - TIES-Merging: Resolving Interference When Merging Models [95.59265307318752]
転送学習は、ダウンストリーム性能の改善、収束の高速化、サンプル効率の向上など、大きな利点をもたらす可能性がある。
モデルマージは、追加のトレーニングを行うことなく、複数のタスク固有のモデルを単一のモデルに組み合わせるソリューションとして登場した。
既存のマージ手法は、しばしば異なるモデルのパラメータ間の干渉を無視し、複数のモデルのマージ時に大きなパフォーマンス低下を引き起こす。
本稿では,モデル統合における新たな3つのステップとして,微調整時に少量だけ変化したパラメータをリセットし,符号衝突を解消し,最終的な一致した符号に一致したパラメータのみをマージするTIES-Mergingを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:31:32Z) - Leveraging Trust for Joint Multi-Objective and Multi-Fidelity
Optimization [0.0]
本稿では,ベイズ的多目的・多忠実度最適化(MOMF)に対する新しいアプローチについて検討する。
複数目的とデータソースの同時最適化を支援するために,信頼度基準の革新的利用を提案する。
本手法はプラズマ物理学や流体力学などの分野におけるシミュレーション問題の解法に適用可能である。
論文 参考訳(メタデータ) (2021-12-27T20:55:26Z) - Conservative Objective Models for Effective Offline Model-Based
Optimization [78.19085445065845]
計算設計の問題は、合成生物学からコンピュータアーキテクチャまで、様々な場面で発生している。
本研究では,分布外入力に対する接地的目標の実際の値を低くする目的関数のモデルを学習する手法を提案する。
COMは、様々なMBO問題に対して、既存のメソッドの実装と性能の面では単純である。
論文 参考訳(メタデータ) (2021-07-14T17:55:28Z) - Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。
このアプローチは多くの実装と最適化の課題をもたらします。
提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文 参考訳(メタデータ) (2021-03-18T14:26:26Z) - Expected Information Maximization: Using the I-Projection for Mixture
Density Estimation [22.096148237257644]
高度にマルチモーダルなデータのモデリングは、機械学習において難しい問題である。
我々は,予測情報最大化(EIM)と呼ばれる新しいアルゴリズムを提案する。
我々のアルゴリズムは最近のGANアプローチよりもI射影の計算に効果的であることを示す。
論文 参考訳(メタデータ) (2020-01-23T17:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。