Fugu-MT 論文翻訳(概要): MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation

論文の概要: MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation

arxiv url: http://arxiv.org/abs/2406.07529v3
Date: Mon, 2 Sep 2024 20:42:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-04 17:51:09.103622
Title: MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation
Title（参考訳）: MAP: 擬似近似によるアモータイズされたパレートフロントとの低計算モデル融合
Authors: Lu Li, Tianyu Zhang, Zhiqi Bu, Suyuchen Wang, Huan He, Jie Fu, Yonghui Wu, Jiang Bian, Yong Chen, Yoshua Bengio,
Abstract要約: モデルマージは、同じトレーニング済みモデルから細調整された複数のシングルタスクモデルをマルチタスクモデルに結合する効果的なアプローチである。既存のモデルマージ手法は、平均的なタスク精度の向上に重点を置いている。 Amortized Pareto Front (MAP) を用いた新しい低計算アルゴリズム Model Merging を導入する。
参考スコア（独自算出の注目度）: 80.47072100963017
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Model merging has emerged as an effective approach to combine multiple single-task models, fine-tuned from the same pre-trained model, into a multitask model. This process typically involves computing a weighted average of the model parameters without any additional training. Existing model-merging methods focus on enhancing average task accuracy. However, interference and conflicts between the objectives of different tasks can lead to trade-offs during model merging. In real-world applications, a set of solutions with various trade-offs can be more informative, helping practitioners make decisions based on diverse preferences. In this paper, we introduce a novel low-compute algorithm, Model Merging with Amortized Pareto Front (MAP). MAP identifies a Pareto set of scaling coefficients for merging multiple models to reflect the trade-offs. The core component of MAP is approximating the evaluation metrics of the various tasks using a quadratic approximation surrogate model derived from a pre-selected set of scaling coefficients, enabling amortized inference. Experimental results on vision and natural language processing tasks show that MAP can accurately identify the Pareto front. To further reduce the required computation of MAP, we propose (1) a Bayesian adaptive sampling algorithm and (2) a nested merging scheme with multiple stages.
Abstract（参考訳）: モデルマージは、同じトレーニング済みモデルから微調整された複数のシングルタスクモデルをマルチタスクモデルに結合する効果的なアプローチとして登場した。このプロセスは通常、追加のトレーニングなしでモデルのパラメータの重み付け平均を計算する。既存のモデルマージ手法は、平均的なタスク精度の向上に重点を置いている。しかしながら、異なるタスクの目的間の干渉と矛盾は、モデルマージ時のトレードオフにつながる可能性がある。現実世界のアプリケーションでは、さまざまなトレードオフを伴う一連のソリューションがより有益なものになり、実践者がさまざまな好みに基づいて意思決定するのに役立つ。本稿では,新しい低計算アルゴリズムであるモデルマージングとアモータライズされたパレートフロント(MAP)を提案する。 MAPは、複数のモデルをマージしてトレードオフを反映するためのParetoのスケーリング係数のセットを特定する。 MAPのコアコンポーネントは、事前選択されたスケーリング係数の集合から導かれる二次近似代理モデルを用いて、様々なタスクの評価指標を近似し、償却推論を可能にすることである。視覚および自然言語処理タスクの実験結果は、MAPがパレートフロントを正確に識別できることを示している。さらにMAPの計算量を削減するために,(1)ベイズ適応型サンプリングアルゴリズムを提案し,(2)複数段階のネスト型マージ方式を提案する。

関連論文リスト

ACE-Merging: Data-Free Model Merging with Adaptive Covariance Estimation [34.173549610331385]
モデルマージは、複数のタスク固有のエキスパートモデルと1つのモデルを組み合わせることを目的としている。専門家間の干渉、特に異なる目的でトレーニングされた場合、しばしばパフォーマンスが著しく低下する。 acemは、タスク間干渉を効果的に緩和する適応的共分散推定フレームワークである。
論文参考訳（メタデータ） (2026-03-03T12:53:04Z)
Learning What Matters: Probabilistic Task Selection via Mutual Information for Model Finetuning [20.93518809718398]
混合最適化のための原則的でスケーラブルなフレームワークであるTASKPGMを紹介する。 TASKPGMはマルコフランダム場(MRF)上のエネルギー関数を最小化して連続タスク比を選択する本手法は, 単純な制約下で閉形式解を導出し, タスク間の代表性と多様性を確実にバランスさせる。
論文参考訳（メタデータ） (2025-07-16T20:14:55Z)
Merging Models on the Fly Without Retraining: A Sequential Approach to Scalable Continual Model Merging [75.93960998357812]
ディープモデルマージ(Deep Modelmerging)は、複数の微調整モデルを組み合わせて、さまざまなタスクやドメインにまたがる能力を活用する、新たな研究方向を示すものだ。現在のモデルマージ技術は、全ての利用可能なモデルを同時にマージすることに集中しており、重量行列に基づく手法が主要なアプローチである。本稿では,モデルを逐次処理するトレーニングフリーなプロジェクションベース連続マージ手法を提案する。
論文参考訳（メタデータ） (2025-01-16T13:17:24Z)
Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [74.02034188307857]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。既存の手法は必然的にタスク固有の情報を破棄し、競合の原因となっているが、パフォーマンスには不可欠である。我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文参考訳（メタデータ） (2025-01-02T12:45:21Z)
Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文参考訳（メタデータ） (2024-06-14T07:16:18Z)
AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。 AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文参考訳（メタデータ） (2023-10-04T04:26:33Z)
Multi-Task Learning for Sparsity Pattern Heterogeneity: Statistical and Computational Perspectives [10.514866749547558]
マルチタスク学習(MTL)において、複数の線形モデルがデータセットの集合上で協調的に訓練される問題を考える。我々のフレームワークの重要な特徴は、回帰係数のスパーシティパターンと非ゼロ係数の値がタスク間で異なることである。提案手法は,1) 係数のサポートを個別に促進し,2) 非ゼロ係数の値を類似させることにより,タスク間の情報共有を奨励する。これにより、非ゼロ係数値がタスク間で異なる場合でも、モデルが可変選択中に強度を借りることができる。
論文参考訳（メタデータ） (2022-12-16T19:52:25Z)
Pareto Manifold Learning: Tackling multiple tasks via ensembles of single-task models [50.33956216274694]
マルチタスク学習(MTL)では、タスクは、ソリューションへの最適化を導くのではなく、互いに達成したパフォーマンスを競い、制限することができる。重み空間におけるアンサンブル手法であるTextitPareto Manifold Learningを提案する。
論文参考訳（メタデータ） (2022-10-18T11:20:54Z)
Multi-Task Learning on Networks [0.0]
マルチタスク学習コンテキストで発生する多目的最適化問題は、特定の特徴を持ち、アドホックな方法を必要とする。この論文では、入力空間の解は、関数評価に含まれる知識をカプセル化した確率分布として表現される。確率分布のこの空間では、ワッサーシュタイン距離によって与えられる計量が与えられ、モデルが目的関数に直接依存しないような新しいアルゴリズムMOEA/WSTを設計することができる。
論文参考訳（メタデータ） (2021-12-07T09:13:10Z)
Pareto Navigation Gradient Descent: a First-Order Algorithm for Optimization in Pareto Set [17.617944390196286]
マルチタスク学習のような現代の機械学習アプリケーションは、複数の目的関数をトレードオフするために最適なモデルパラメータを見つける必要がある。勾配情報のみを用いてOPT-in-Paretoを近似的に解く1次アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-10-17T04:07:04Z)
Evaluating model-based planning and planner amortization for continuous control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文参考訳（メタデータ） (2021-10-07T12:00:40Z)
Learning Diverse Representations for Fast Adaptation to Distribution Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文参考訳（メタデータ） (2020-06-12T12:23:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。