論文の概要: It's Morphing Time: Unleashing the Potential of Multiple LLMs via Multi-objective Optimization
- arxiv url: http://arxiv.org/abs/2407.00487v2
- Date: Mon, 12 Aug 2024 14:06:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 20:53:08.506617
- Title: It's Morphing Time: Unleashing the Potential of Multiple LLMs via Multi-objective Optimization
- Title(参考訳): モーフィング時間:多目的最適化による複数LLMの可能性の解放
- Authors: Bingdong Li, Zixiang Di, Yanting Yang, Hong Qian, Peng Yang, Hao Hao, Ke Tang, Aimin Zhou,
- Abstract要約: モデルマージの目標は、複数のモデルを組み合わせることであり、それぞれが異なるタスクで優れており、個々のソースモデルよりも優れた1つのモデルにまとめることである。
既存の方法は、複数のタスクに取り組むための人間の直感とカスタマイズされた戦略に大きく依存している。
MM-MOと呼ばれる多目的最適化に基づくモデルマージ手法を提案する。
- 参考スコア(独自算出の注目度): 16.54335356612006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce a novel approach for large language model merging via black-box multi-objective optimization algorithms. The goal of model merging is to combine multiple models, each excelling in different tasks, into a single model that outperforms any of the individual source models. However, model merging faces two significant challenges: First, existing methods rely heavily on human intuition and customized strategies to tackle multiple tasks. Second, it's difficult to search for the great model merging configuration in limited evaluations. To address these challenges, we propose a multi-objective optimization based model merging method named MM-MO. The proposed method can automatically search merging configurations for multiple tasks with multi-objective optimization algorithms. Moreover, to obtain high-quality model merging configurations within a limited number of evaluation iterations, we have made several improvements to multi-objective Bayesian optimization specifically for model merging scenarios. First, we introduced a weak-to-strong method to improve the acquisition strategy. Second, we employed Fisher information to select configurations, further increasing the chances of discovering superior model merging configurations. Third, we designed a sparsity metric as an additional optimization objective to enhance the model's generalization performance across different tasks. We conducted comprehensive experiments with other mainstream model merging methods, demonstrating that our method consistently outperforms them. Moreover, performance improvements are observed even on the tasks not explicitly targeted as optimization objectives, indicating that our method enhances the overall potential of the model. ...
- Abstract(参考訳): 本稿では,ブラックボックス多目的最適化アルゴリズムを用いた大規模言語モデル統合のための新しいアプローチを提案する。
モデルマージの目標は、複数のモデルを組み合わせることであり、それぞれが異なるタスクで優れており、個々のソースモデルよりも優れた1つのモデルにまとめることである。
しかし、モデルマージには2つの大きな課題がある: まず、既存の手法は、複数のタスクに取り組むために人間の直感とカスタマイズされた戦略に大きく依存する。
第二に、限られた評価で設定をマージする優れたモデルを探すのは困難です。
これらの課題に対処するため,MM-MOと呼ばれる多目的最適化に基づくモデルマージ手法を提案する。
提案手法は,多目的最適化アルゴリズムを用いて,複数タスクのマージ構成を自動的に検索する。
さらに, モデルマージシナリオに特化して, 多目的ベイズ最適化にいくつかの改良を加えた。
まず, 獲得戦略を改善するために, 弱強法を導入した。
第2に、設定の選択にFisher情報を使用し、優れたモデルマージ構成を発見する可能性をさらに高めました。
第3に、異なるタスク間でのモデルの一般化性能を高めるために、余剰距離を追加最適化の目的として設計した。
我々は,他の主流モデルマージ手法を用いた総合的な実験を行い,その有効性を実証した。
さらに,最適化対象として明示的に目標にされていないタスクにおいても,性能改善が観察され,本手法がモデル全体のポテンシャルを高めることが示唆された。
はぁ...。
関連論文リスト
- Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。
本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。
特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文 参考訳(メタデータ) (2024-06-14T07:16:18Z) - MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation [80.47072100963017]
モデルマージは、同じトレーニング済みモデルから細調整された複数のシングルタスクモデルをマルチタスクモデルに結合する効果的なアプローチである。
既存のモデルマージ手法は、平均的なタスク精度の向上に重点を置いている。
Amortized Pareto Front (MAP) を用いた新しい低計算アルゴリズム Model Merging を導入する。
論文 参考訳(メタデータ) (2024-06-11T17:55:25Z) - DPPA: Pruning Method for Large Language Model to Model Merging [39.13317231533299]
本稿では、複雑な微調整モデルを統合するという課題に対処するため、DPPA(Dynamic Pruning Partition Amplification)と呼ばれる2段階の手法を提案する。
提案手法は,ドメイン固有のパラメータの20%しか保持せず,他の手法に匹敵する性能を提供する。
提案手法では, プレニング後の性能が優れており, モデルマージにおける性能が20%近く向上した。
論文 参考訳(メタデータ) (2024-03-05T09:12:49Z) - Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。
従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。
本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文 参考訳(メタデータ) (2024-02-01T08:58:57Z) - TIES-Merging: Resolving Interference When Merging Models [95.59265307318752]
転送学習は、ダウンストリーム性能の改善、収束の高速化、サンプル効率の向上など、大きな利点をもたらす可能性がある。
モデルマージは、追加のトレーニングを行うことなく、複数のタスク固有のモデルを単一のモデルに組み合わせるソリューションとして登場した。
既存のマージ手法は、しばしば異なるモデルのパラメータ間の干渉を無視し、複数のモデルのマージ時に大きなパフォーマンス低下を引き起こす。
本稿では,モデル統合における新たな3つのステップとして,微調整時に少量だけ変化したパラメータをリセットし,符号衝突を解消し,最終的な一致した符号に一致したパラメータのみをマージするTIES-Mergingを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:31:32Z) - Leveraging Trust for Joint Multi-Objective and Multi-Fidelity
Optimization [0.0]
本稿では,ベイズ的多目的・多忠実度最適化(MOMF)に対する新しいアプローチについて検討する。
複数目的とデータソースの同時最適化を支援するために,信頼度基準の革新的利用を提案する。
本手法はプラズマ物理学や流体力学などの分野におけるシミュレーション問題の解法に適用可能である。
論文 参考訳(メタデータ) (2021-12-27T20:55:26Z) - Conservative Objective Models for Effective Offline Model-Based
Optimization [78.19085445065845]
計算設計の問題は、合成生物学からコンピュータアーキテクチャまで、様々な場面で発生している。
本研究では,分布外入力に対する接地的目標の実際の値を低くする目的関数のモデルを学習する手法を提案する。
COMは、様々なMBO問題に対して、既存のメソッドの実装と性能の面では単純である。
論文 参考訳(メタデータ) (2021-07-14T17:55:28Z) - Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。
このアプローチは多くの実装と最適化の課題をもたらします。
提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文 参考訳(メタデータ) (2021-03-18T14:26:26Z) - Expected Information Maximization: Using the I-Projection for Mixture
Density Estimation [22.096148237257644]
高度にマルチモーダルなデータのモデリングは、機械学習において難しい問題である。
我々は,予測情報最大化(EIM)と呼ばれる新しいアルゴリズムを提案する。
我々のアルゴリズムは最近のGANアプローチよりもI射影の計算に効果的であることを示す。
論文 参考訳(メタデータ) (2020-01-23T17:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。