論文の概要: Localizing Task Information for Improved Model Merging and Compression
- arxiv url: http://arxiv.org/abs/2405.07813v1
- Date: Mon, 13 May 2024 14:54:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 13:15:58.838205
- Title: Localizing Task Information for Improved Model Merging and Compression
- Title(参考訳): モデルマージと圧縮の改善のためのタスク情報のローカライズ
- Authors: Ke Wang, Nikolaos Dimitriadis, Guillermo Ortiz-Jimenez, François Fleuret, Pascal Frossard,
- Abstract要約: 我々は,各タスクの重み付けが重なり合わないことが多いため,各タスクがマージされた後も,各タスクの解決に必要な情報が保存されていることを示す。
本稿では,そのような重みを排除し,既存のモデルマージ手法の一般的な性能を改善するアルゴリズムであるConsensus Mergingを提案する。
- 参考スコア(独自算出の注目度): 61.16012721460561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model merging and task arithmetic have emerged as promising scalable approaches to merge multiple single-task checkpoints to one multi-task model, but their applicability is reduced by significant performance loss. Previous works have linked these drops to interference in the weight space and erasure of important task-specific features. Instead, in this work we show that the information required to solve each task is still preserved after merging as different tasks mostly use non-overlapping sets of weights. We propose TALL-masks, a method to identify these task supports given a collection of task vectors and show that one can retrieve >99% of the single task accuracy by applying our masks to the multi-task vector, effectively compressing the individual checkpoints. We study the statistics of intersections among constructed masks and reveal the existence of selfish and catastrophic weights, i.e., parameters that are important exclusively to one task and irrelevant to all tasks but detrimental to multi-task fusion. For this reason, we propose Consensus Merging, an algorithm that eliminates such weights and improves the general performance of existing model merging approaches. Our experiments in vision and NLP benchmarks with up to 20 tasks, show that Consensus Merging consistently improves existing approaches. Furthermore, our proposed compression scheme reduces storage from 57Gb to 8.2Gb while retaining 99.7% of original performance.
- Abstract(参考訳): モデルマージとタスク算術は、複数の単一タスクチェックポイントを1つのマルチタスクモデルにマージする、有望なスケーラブルなアプローチとして登場したが、それらの適用性は、大きなパフォーマンス損失によって低下している。
これまでの研究は、これらの落とし穴を重み空間の干渉と重要なタスク固有の特徴の消去に結びつけてきた。
代わりに、この研究では、異なるタスクが主に重複しない重みのセットを使用するため、各タスクをマージした後に、各タスクの解決に必要な情報が保存されていることを示す。
本稿では,タスクベクトルの集合を与えられたタスクを識別するTALL-maskを提案するとともに,マスクをマルチタスクベクトルに適用し,個々のチェックポイントを効果的に圧縮することにより,単一タスクの精度の99%を検索可能であることを示す。
建設マスク間の交叉統計を調査し,一つのタスクにのみ重要であり,すべてのタスクに無関係であるがマルチタスク融合に有害なパラメータである自尊心と破滅的な重みの存在を明らかにする。
そこで本研究では,そのような重みを排除し,既存のモデルマージ手法の一般的な性能を改善するアルゴリズムであるConsensus Mergingを提案する。
最大20タスクの視覚およびNLPベンチマーク実験では,Consensus Mergingが既存のアプローチを一貫して改善していることが示されている。
さらに, 圧縮方式により, ストレージを57Gbから8.2Gbに削減し, オリジナル性能の99.7%を維持した。
関連論文リスト
- Distribution Matching for Multi-Task Learning of Classification Tasks: a
Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。
MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。
本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T14:18:11Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Exposing and Addressing Cross-Task Inconsistency in Unified
Vision-Language Models [80.23791222509644]
一貫性のないAIモデルは、人間のユーザーによって不安定で信頼できないと見なされている。
最先端のビジョン言語モデルは、タスク間の驚くほど高い一貫性のない振る舞いに悩まされている。
本稿では,大規模で自動生成されるクロスタスクコントラスト集合上で計算されたランク相関に基づく補助訓練目標を提案する。
論文 参考訳(メタデータ) (2023-03-28T16:57:12Z) - ImpressLearn: Continual Learning via Combined Task Impressions [0.0]
本研究は、破滅的な忘れを苦しめることなく、複数のタスクでディープニューラルネットワークを逐次訓練する新しい手法を提案する。
ランダムなバックボーンネットワーク上で少数のタスク固有のマスクの線形結合を学習するだけで、以前に学習したタスクの精度を維持したり、新しいタスクの精度を高めることができることを示す。
論文 参考訳(メタデータ) (2022-10-05T02:28:25Z) - DiSparse: Disentangled Sparsification for Multitask Model Compression [92.84435347164435]
DiSparseは、シンプルで効果的で、第一級のマルチタスクプルーニングとスパーストレーニングスキームである。
実験の結果,様々な設定や設定において優れた性能を示した。
論文 参考訳(メタデータ) (2022-06-09T17:57:46Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Instance-Level Task Parameters: A Robust Multi-task Weighting Framework [17.639472693362926]
最近の研究によると、ディープニューラルネットワークは、複数の関連するタスク間で共有表現を学習することで、マルチタスク学習の恩恵を受けている。
トレーニングプロセスは、データセットの各インスタンスに対するタスクの最適な重み付けを規定します。
我々は,SURREALとCityScapesのデータセットを用いて,人間の形状とポーズ推定,深さ推定,セマンティックセグメンテーションタスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-06-11T02:35:42Z) - Lifelong Learning Without a Task Oracle [13.331659934508764]
監視されたディープニューラルネットワークは、新しいタスクが学習されると、古いタスクの精度が大幅に低下することが知られている。
本稿では,メモリオーバーヘッドの少ないタスク割り当てマップの提案と比較を行う。
最高のパフォーマンスの変種は、平均的なパラメータメモリの増大を1.7%に抑えるだけである。
論文 参考訳(メタデータ) (2020-11-09T21:30:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。