論文の概要: MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation
- arxiv url: http://arxiv.org/abs/2406.07529v2
- Date: Tue, 18 Jun 2024 06:24:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-20 01:05:59.622052
- Title: MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation
- Title(参考訳): MAP: 擬似近似によるアモータイズされたパレートフロントとの低計算モデル融合
- Authors: Lu Li, Tianyu Zhang, Zhiqi Bu, Suyuchen Wang, Huan He, Jie Fu, Yonghui Wu, Jiang Bian, Yong Chen, Yoshua Bengio,
- Abstract要約: モデルマージは、同じトレーニング済みモデルから細調整された複数のシングルタスクモデルをマルチタスクモデルに結合する効果的なアプローチである。
既存のモデルマージ手法は、平均的なタスク精度の向上に重点を置いている。
Amortized Pareto Front (MAP) を用いた新しい低計算アルゴリズム Model Merging を導入する。
- 参考スコア(独自算出の注目度): 80.47072100963017
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model merging has emerged as an effective approach to combine multiple single-task models, fine-tuned from the same pre-trained model, into a multitask model. This process typically involves computing a weighted average of the model parameters without any additional training. Existing model-merging methods focus on enhancing average task accuracy. However, interference and conflicts between the objectives of different tasks can lead to trade-offs during model merging. In real-world applications, a set of solutions with various trade-offs can be more informative, helping practitioners make decisions based on diverse preferences. In this paper, we introduce a novel low-compute algorithm, Model Merging with Amortized Pareto Front (MAP). MAP identifies a Pareto set of scaling coefficients for merging multiple models to reflect the trade-offs. The core component of MAP is approximating the evaluation metrics of the various tasks using a quadratic approximation surrogate model derived from a pre-selected set of scaling coefficients, enabling amortized inference. Experimental results on vision and natural language processing tasks show that MAP can accurately identify the Pareto front. To further reduce the required computation of MAP, we propose (1) a Bayesian adaptive sampling algorithm and (2) a nested merging scheme with multiple stages.
- Abstract(参考訳): モデルマージは、同じトレーニング済みモデルから微調整された複数のシングルタスクモデルをマルチタスクモデルに結合する効果的なアプローチとして登場した。
このプロセスは通常、追加のトレーニングなしでモデルのパラメータの重み付け平均を計算する。
既存のモデルマージ手法は、平均的なタスク精度の向上に重点を置いている。
しかしながら、異なるタスクの目的間の干渉と矛盾は、モデルマージ時のトレードオフにつながる可能性がある。
現実世界のアプリケーションでは、さまざまなトレードオフを伴う一連のソリューションがより有益なものになり、実践者がさまざまな好みに基づいて意思決定するのに役立つ。
本稿では,新しい低計算アルゴリズムであるモデルマージングとアモータライズされたパレートフロント(MAP)を提案する。
MAPは、複数のモデルをマージしてトレードオフを反映するためのParetoのスケーリング係数のセットを特定する。
MAPのコアコンポーネントは、事前選択されたスケーリング係数の集合から導かれる二次近似代理モデルを用いて、様々なタスクの評価指標を近似し、償却推論を可能にすることである。
視覚および自然言語処理タスクの実験結果は、MAPがパレートフロントを正確に識別できることを示している。
さらにMAPの計算量を削減するために,(1)ベイズ適応型サンプリングアルゴリズムを提案し,(2)複数段階のネスト型マージ方式を提案する。
関連論文リスト
- Kullback-Leibler Barycentre of Stochastic Processes [0.0]
エージェントが様々な専門家のモデルに対する見解と洞察を組み合わせることを目的とした問題を考える。
バリセントモデルの存在と特異性を示し、ラドン-ニコディム微分の明示的な表現を証明する。
合成モデルの最適ドリフトを求めるために,2つのディープラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-05T20:45:27Z) - Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。
本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。
特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文 参考訳(メタデータ) (2024-06-14T07:16:18Z) - Merging by Matching Models in Task Parameter Subspaces [87.8712523378141]
モデルマージは、個々のタスク固有のモデルを単一のマルチタスクモデルに安価に結合することを目的としている。
我々は、モデルマージに対するこのアプローチが、方程式の線形系を解くとみなす方法を定式化する。
共役勾配法は閉形式解より優れていることを示す。
論文 参考訳(メタデータ) (2023-12-07T14:59:15Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Building a Winning Team: Selecting Source Model Ensembles using a
Submodular Transferability Estimation Approach [20.86345962679122]
公開されている事前訓練されたモデルの目標タスクへの転送可能性の推定は、伝達学習タスクにとって重要な場所となっている。
本稿では, モデルアンサンブルの下流タスクへの転送可能性を評価するために, 最適なtranSportベースのsuBmOdular tRaNsferability Metrics(OSBORN)を提案する。
論文 参考訳(メタデータ) (2023-09-05T17:57:31Z) - Switchable Representation Learning Framework with Self-compatibility [50.48336074436792]
自己整合性(SFSC)を考慮した交換可能な表現学習フレームワークを提案する。
SFSCは1つのトレーニングプロセスを通じて、異なる能力を持つ一連の互換性のあるサブモデルを生成する。
SFSCは評価データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-16T16:46:32Z) - Multi-Task Learning on Networks [0.0]
マルチタスク学習コンテキストで発生する多目的最適化問題は、特定の特徴を持ち、アドホックな方法を必要とする。
この論文では、入力空間の解は、関数評価に含まれる知識をカプセル化した確率分布として表現される。
確率分布のこの空間では、ワッサーシュタイン距離によって与えられる計量が与えられ、モデルが目的関数に直接依存しないような新しいアルゴリズムMOEA/WSTを設計することができる。
論文 参考訳(メタデータ) (2021-12-07T09:13:10Z) - Merging Models with Fisher-Weighted Averaging [24.698591753644077]
我々は、複数のモデルを1つに“マージ”するモデル間で知識を伝達する、根本的に異なる方法を紹介します。
提案手法は,モデルのパラメータの重み付け平均を効果的に計算する。
マージ手順により、これまで探索されていなかった方法でモデルを組み合わせることが可能であることを示す。
論文 参考訳(メタデータ) (2021-11-18T17:59:35Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。