論文の概要: Concrete Subspace Learning based Interference Elimination for Multi-task
Model Fusion
- arxiv url: http://arxiv.org/abs/2312.06173v1
- Date: Mon, 11 Dec 2023 07:24:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 16:42:56.167922
- Title: Concrete Subspace Learning based Interference Elimination for Multi-task
Model Fusion
- Title(参考訳): マルチタスクモデル融合のためのコンクリート部分空間学習に基づく干渉除去
- Authors: Anke Tang, Li Shen, Yong Luo, Liang Ding, Han Hu, Bo Du, Dacheng Tao
- Abstract要約: 一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。
本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
- 参考スコア(独自算出の注目度): 86.6191592951269
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Merging models fine-tuned from a common, extensively pre-trained large model
but specialized for different tasks has been demonstrated as a cheap and
scalable strategy to construct a multi-task model that performs well across
diverse tasks. Recent research, exemplified by task arithmetic, highlights that
this multi-task model can be derived through arithmetic operations on task
vectors. Nevertheless, current merging techniques frequently resolve potential
conflicts among parameters from task-specific models by evaluating individual
attributes, such as the parameters' magnitude or sign, overlooking their
collective impact on the overall functionality of the model. In this work, we
propose the CONtinuous relaxation of disCRETE (Concrete) subspace learning
method to identify a common low-dimensional subspace and utilize its shared
information to track the interference problem without sacrificing much
performance. Specifically, we model the problem as a bi-level optimization
problem and introduce a meta-learning framework to find the Concrete subspace
mask through gradient-based techniques. At the upper level, we focus on
learning a shared Concrete mask to identify the subspace, while at the inner
level, model merging is performed to maximize the performance of the merged
model. We conduct extensive experiments on both vision domain and language
domain, and the results demonstrate the effectiveness of our method. The code
is available at https://github.com/tanganke/subspace_fusion
- Abstract(参考訳): 共通で広く訓練された大規模モデルから微調整されているが、異なるタスクに特化した統合モデルは、様々なタスクにまたがってうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。
最近の研究でタスク演算が示されるように、このマルチタスクモデルはタスクベクトルの演算演算を通じて導出できることが強調されている。
それにもかかわらず、現在のマージ技術は、パラメータの大きさや符号などの個々の属性を評価して、モデル全体の機能に対する集団的影響を見下ろすことによって、タスク固有のモデルからのパラメータ間の潜在的な競合をしばしば解決する。
本研究では,共通低次元部分空間を同定し,その共有情報を利用して干渉問題を追従し,性能を犠牲にすることなく,離散的(コンクリート)部分空間学習手法の連続緩和を提案する。
具体的には,二段階最適化問題として問題をモデル化し,勾配に基づく手法を用いて具体的部分空間マスクを見つけるためのメタラーニングフレームワークを導入する。
上層部では,部分空間を特定するための共有コンクリートマスクの学習に焦点が当てられ,内層部では,マージモデルの性能を最大化するためにモデルマージが行われる。
視覚領域と言語領域の両方で広範な実験を行い,本手法の有効性を実証した。
コードはhttps://github.com/tanganke/subspace_fusionで入手できる。
関連論文リスト
- Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。
本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。
特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文 参考訳(メタデータ) (2024-06-14T07:16:18Z) - Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。
従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。
本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文 参考訳(メタデータ) (2024-02-01T08:58:57Z) - SeMAIL: Eliminating Distractors in Visual Imitation via Separated Models [22.472167814814448]
本稿では,SeMAIL(Separated Model-based Adversarial Imitation Learning)というモデルベース模倣学習アルゴリズムを提案する。
本手法は, 様々な視覚的制御タスクにおいて, 複雑な観察と, 専門的な観察から異なる背景を持つより困難なタスクにおいて, ほぼ専門的な性能を実現する。
論文 参考訳(メタデータ) (2023-06-19T04:33:44Z) - Mod-Squad: Designing Mixture of Experts As Modular Multi-Task Learners [74.92558307689265]
専門家グループ("スクワッド")にモジュール化された新しいモデルであるMod-Squadを提案する。
単一モデルのトレーニング中に、このマッチングプロセスを最適化する。
13の視覚タスクを持つタスクノミーデータセットと、5つの視覚タスクを持つPASCAL-Contextデータセットの実験は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2022-12-15T18:59:52Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Modular Networks Prevent Catastrophic Interference in Model-Based
Multi-Task Reinforcement Learning [0.8883733362171032]
モデルベースのマルチタスク強化学習が、共有ポリシネットワークからモデルフリーメソッドが行うのと同様の方法で、共有ダイナミクスモデルから恩恵を受けるかどうかを検討する。
単一ダイナミクスモデルを用いて、タスクの混乱と性能低下の明確な証拠を見出す。
対策として、学習力学モデルの内部構造を個別のサブネットワークにトレーニングすることで、パフォーマンスを著しく向上させる。
論文 参考訳(メタデータ) (2021-11-15T12:31:31Z) - Rethinking Hard-Parameter Sharing in Multi-Task Learning [20.792654758645302]
マルチタスク学習(MTL)におけるハードパラメータ共有により、タスクはモデルのパラメータの一部を共有でき、ストレージコストを低減し、予測精度を向上させることができる。
共通の共有プラクティスは、タスク毎に別々のトップレイヤを使用しながら、タスク間でディープニューラルネットワークのボトムレイヤを共有することだ。
異なるボトム層パラメータを使用することで、一般的なプラクティスよりも大幅にパフォーマンスが向上する可能性がある。
論文 参考訳(メタデータ) (2021-07-23T17:26:40Z) - Learning from demonstration using products of experts: applications to
manipulation and task prioritization [12.378784643460474]
異なるタスク空間におけるモデルの融合は、専門家(PoE)の積として表現できることを示す。
複数の実験を行い、PoEフレームワークで異なるモデルを共同で学習することで、モデルの品質が大幅に向上することを示した。
論文 参考訳(メタデータ) (2020-10-07T16:24:41Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。