論文の概要: MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation
- arxiv url: http://arxiv.org/abs/2406.07529v4
- Date: Sat, 19 Oct 2024 00:49:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:11:39.505626
- Title: MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation
- Title(参考訳): MAP: 擬似近似によるアモータイズされたパレートフロントとの低計算モデル融合
- Authors: Lu Li, Tianyu Zhang, Zhiqi Bu, Suyuchen Wang, Huan He, Jie Fu, Yonghui Wu, Jiang Bian, Yong Chen, Yoshua Bengio,
- Abstract要約: Amortized Pareto Front (MAP) を用いた新しい低演算アルゴリズム Model Merging を導入する。
MAPは、複数のモデルをマージするためのスケーリング係数のセットを効率的に識別し、関連するトレードオフを反映する。
また,タスク数が比較的少ないシナリオではベイジアンMAP,タスク数の多い状況ではNested MAPを導入し,計算コストを削減した。
- 参考スコア(独自算出の注目度): 80.47072100963017
- License:
- Abstract: Model merging has emerged as an effective approach to combine multiple single-task models into a multitask model. This process typically involves computing a weighted average of the model parameters without any additional training. Existing model-merging methods focus on enhancing average task accuracy. However, interference and conflicts between the objectives of different tasks can lead to trade-offs during the merging process. In real-world applications, a set of solutions with various trade-offs can be more informative, helping practitioners make decisions based on diverse preferences. In this paper, we introduce a novel and low-compute algorithm, Model Merging with Amortized Pareto Front (MAP). MAP efficiently identifies a Pareto set of scaling coefficients for merging multiple models, reflecting the trade-offs involved. It amortizes the substantial computational cost of evaluations needed to estimate the Pareto front by using quadratic approximation surrogate models derived from a pre-selected set of scaling coefficients. Experimental results on vision and natural language processing tasks demonstrate that MAP can accurately identify the Pareto front, providing practitioners with flexible solutions to balance competing task objectives. We also introduce Bayesian MAP for scenarios with a relatively low number of tasks and Nested MAP for situations with a high number of tasks, further reducing the computational cost of evaluation.
- Abstract(参考訳): モデルマージは、複数の単一タスクモデルをマルチタスクモデルに結合する効果的なアプローチとして現れている。
このプロセスは通常、追加のトレーニングなしでモデルのパラメータの重み付け平均を計算する。
既存のモデルマージ手法は、平均的なタスク精度の向上に重点を置いている。
しかしながら、異なるタスクの目的間の干渉と矛盾は、マージプロセス中にトレードオフを引き起こす可能性がある。
現実世界のアプリケーションでは、さまざまなトレードオフを伴うソリューションのセットがより有益なものになり、実践者がさまざまな好みに基づいて決定を下すのに役立つ。
本稿では,新しい低計算量アルゴリズムであるモデルマージングとアモルティファイドパレートフロント(MAP)を提案する。
MAPは、複数のモデルをマージするためのParetoのスケーリング係数の集合を効率的に識別し、関連するトレードオフを反映する。
事前選択されたスケーリング係数の集合から導かれる二次近似シュロゲートモデルを用いて、パレートフロントを推定するために必要なかなりの計算コストを補正する。
視覚および自然言語処理タスクの実験結果は、MAPがパレートフロントを正確に識別できることを示し、実践者が競合するタスク目標のバランスをとる柔軟なソリューションを提供する。
また,タスク数が比較的少ないシナリオではベイジアンMAP,タスク数の多い状況ではNested MAPを導入し,計算コストを削減した。
関連論文リスト
- Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。
本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。
特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文 参考訳(メタデータ) (2024-06-14T07:16:18Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Multi-Task Learning for Sparsity Pattern Heterogeneity: Statistical and Computational Perspectives [10.514866749547558]
マルチタスク学習(MTL)において、複数の線形モデルがデータセットの集合上で協調的に訓練される問題を考える。
我々のフレームワークの重要な特徴は、回帰係数のスパーシティパターンと非ゼロ係数の値がタスク間で異なることである。
提案手法は,1) 係数のサポートを個別に促進し,2) 非ゼロ係数の値を類似させることにより,タスク間の情報共有を奨励する。
これにより、非ゼロ係数値がタスク間で異なる場合でも、モデルが可変選択中に強度を借りることができる。
論文 参考訳(メタデータ) (2022-12-16T19:52:25Z) - Pareto Manifold Learning: Tackling multiple tasks via ensembles of
single-task models [50.33956216274694]
マルチタスク学習(MTL)では、タスクは、ソリューションへの最適化を導くのではなく、互いに達成したパフォーマンスを競い、制限することができる。
重み空間におけるアンサンブル手法であるTextitPareto Manifold Learningを提案する。
論文 参考訳(メタデータ) (2022-10-18T11:20:54Z) - Multi-Task Learning on Networks [0.0]
マルチタスク学習コンテキストで発生する多目的最適化問題は、特定の特徴を持ち、アドホックな方法を必要とする。
この論文では、入力空間の解は、関数評価に含まれる知識をカプセル化した確率分布として表現される。
確率分布のこの空間では、ワッサーシュタイン距離によって与えられる計量が与えられ、モデルが目的関数に直接依存しないような新しいアルゴリズムMOEA/WSTを設計することができる。
論文 参考訳(メタデータ) (2021-12-07T09:13:10Z) - Pareto Navigation Gradient Descent: a First-Order Algorithm for
Optimization in Pareto Set [17.617944390196286]
マルチタスク学習のような現代の機械学習アプリケーションは、複数の目的関数をトレードオフするために最適なモデルパラメータを見つける必要がある。
勾配情報のみを用いてOPT-in-Paretoを近似的に解く1次アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-17T04:07:04Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。