論文の概要: Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion
- arxiv url: http://arxiv.org/abs/2406.09770v1
- Date: Fri, 14 Jun 2024 07:16:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 14:44:14.318903
- Title: Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion
- Title(参考訳): エキスパートによるモデル融合の混合による効率的なパレート集合近似に向けて
- Authors: Anke Tang, Li Shen, Yong Luo, Shiwei Liu, Han Hu, Bo Du,
- Abstract要約: 大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。
本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。
特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
- 参考スコア(独自算出の注目度): 53.33473557562837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Solving multi-objective optimization problems for large deep neural networks is a challenging task due to the complexity of the loss landscape and the expensive computational cost of training and evaluating models. Efficient Pareto front approximation of large models enables multi-objective optimization for various tasks such as multi-task learning and trade-off analysis. Existing algorithms for learning Pareto set, including (1) evolutionary, hypernetworks, and hypervolume-maximization methods, are computationally expensive and have restricted scalability to large models; (2) Scalarization algorithms, where a separate model is trained for each objective ray, which is inefficient for learning the entire Pareto set and fails to capture the objective trade-offs effectively. Inspired by the recent success of model merging, we propose a practical and scalable approach to Pareto set learning problem via mixture of experts (MoE) based model fusion. By ensembling the weights of specialized single-task models, the MoE module can effectively capture the trade-offs between multiple objectives and closely approximate the entire Pareto set of large neural networks. Once the routers are learned and a preference vector is set, the MoE module can be unloaded, thus no additional computational cost is introduced during inference. We conduct extensive experiments on vision and language tasks using large-scale models such as CLIP-ViT and GPT-2. The experimental results demonstrate that our method efficiently approximates the entire Pareto front of large models. Using only hundreds of trainable parameters of the MoE routers, our method even has lower memory usage compared to linear scalarization and algorithms that learn a single Pareto optimal solution, and are scalable to both the number of objectives and the size of the model.
- Abstract(参考訳): 大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと、モデルのトレーニングと評価に高価な計算コストのために難しい課題である。
大規模モデルの効率的なパレートフロント近似により、マルチタスク学習やトレードオフ解析といった様々なタスクに対する多目的最適化が可能となる。
1)進化的,ハイパーネットワーク,ハイパーボリューム最大化手法を含むパレート集合を学習するための既存のアルゴリズムは,計算コストが高く,大規模モデルにスケーラビリティが制限されている。
近年のモデルマージの成功に触発されて,我々は,専門家(MoE)によるモデルフュージョンの混合によるPareto集合学習問題に対する実用的でスケーラブルなアプローチを提案する。
特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉え、大きなニューラルネットワークのPareto集合全体を正確に近似することができる。
ルータが学習され、優先ベクトルが設定されると、MoEモジュールはアンロードされるので、推論中に追加の計算コストは発生しない。
私たちはCLIP-ViTやGPT-2といった大規模モデルを用いて視覚と言語タスクに関する広範な実験を行った。
実験により,提案手法は大規模モデルのパレートフロント全体を効率よく近似することを示した。
MoEルータの数百のトレーニング可能なパラメータを使用すれば,1つのPareto最適解を学習する線形スカラー化やアルゴリズムと比較してメモリ使用率が低くなり,目的数とモデルサイズの両方にスケーラブルになる。
関連論文リスト
- MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation [80.47072100963017]
Amortized Pareto Front (MAP) を用いた新しい低演算アルゴリズム Model Merging を導入する。
MAPは、複数のモデルをマージするためのスケーリング係数のセットを効率的に識別し、関連するトレードオフを反映する。
また,タスク数が比較的少ないシナリオではベイジアンMAP,タスク数の多い状況ではNested MAPを導入し,計算コストを削減した。
論文 参考訳(メタデータ) (2024-06-11T17:55:25Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Pareto Manifold Learning: Tackling multiple tasks via ensembles of
single-task models [50.33956216274694]
マルチタスク学習(MTL)では、タスクは、ソリューションへの最適化を導くのではなく、互いに達成したパフォーマンスを競い、制限することができる。
重み空間におけるアンサンブル手法であるTextitPareto Manifold Learningを提案する。
論文 参考訳(メタデータ) (2022-10-18T11:20:54Z) - Pareto Set Learning for Neural Multi-objective Combinatorial
Optimization [6.091096843566857]
多目的最適化(MOCO)の問題は、現実世界の多くのアプリケーションで見られる。
我々は,与えられたMOCO問題に対するパレート集合全体を,探索手順を伴わずに近似する学習ベースアプローチを開発した。
提案手法は,多目的走行セールスマン問題,マルチコンディショニング車両ルーティング問題,複数クナップサック問題において,ソリューションの品質,速度,モデル効率の面で,他の方法よりも優れていた。
論文 参考訳(メタデータ) (2022-03-29T09:26:22Z) - Rethinking Pareto Frontier for Performance Evaluation of Deep Neural
Networks [2.167843405313757]
多目的最適化を用いて効率測定を再定義する。
競合変数と自然を同時に1つの相対効率尺度で組み合わせる。
これにより、異なるコンピューティングハードウェア上で効率的に動作するディープモデルをランク付けし、推論効率とトレーニング効率を客観的に組み合わせることができる。
論文 参考訳(メタデータ) (2022-02-18T15:58:17Z) - Multi-Task Learning on Networks [0.0]
マルチタスク学習コンテキストで発生する多目的最適化問題は、特定の特徴を持ち、アドホックな方法を必要とする。
この論文では、入力空間の解は、関数評価に含まれる知識をカプセル化した確率分布として表現される。
確率分布のこの空間では、ワッサーシュタイン距離によって与えられる計量が与えられ、モデルが目的関数に直接依存しないような新しいアルゴリズムMOEA/WSTを設計することができる。
論文 参考訳(メタデータ) (2021-12-07T09:13:10Z) - Pareto Navigation Gradient Descent: a First-Order Algorithm for
Optimization in Pareto Set [17.617944390196286]
マルチタスク学習のような現代の機械学習アプリケーションは、複数の目的関数をトレードオフするために最適なモデルパラメータを見つける必要がある。
勾配情報のみを用いてOPT-in-Paretoを近似的に解く1次アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-17T04:07:04Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。