Fugu-MT 論文翻訳(概要): DiSparse: Disentangled Sparsification for Multitask Model Compression

論文の概要: DiSparse: Disentangled Sparsification for Multitask Model Compression

arxiv url: http://arxiv.org/abs/2206.04662v1
Date: Thu, 9 Jun 2022 17:57:46 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-10 12:40:52.612792
Title: DiSparse: Disentangled Sparsification for Multitask Model Compression
Title（参考訳）: DiSparse:マルチタスクモデル圧縮のためのアンタングルスカラー化
Authors: Xinglong Sun, Ali Hassani, Zhangyang Wang, Gao Huang, Humphrey Shi
Abstract要約: DiSparseは、シンプルで効果的で、第一級のマルチタスクプルーニングとスパーストレーニングスキームである。実験の結果,様々な設定や設定において優れた性能を示した。
参考スコア（独自算出の注目度）: 92.84435347164435
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the popularity of Model Compression and Multitask Learning, how to effectively compress a multitask model has been less thoroughly analyzed due to the challenging entanglement of tasks in the parameter space. In this paper, we propose DiSparse, a simple, effective, and first-of-its-kind multitask pruning and sparse training scheme. We consider each task independently by disentangling the importance measurement and take the unanimous decisions among all tasks when performing parameter pruning and selection. Our experimental results demonstrate superior performance on various configurations and settings compared to popular sparse training and pruning methods. Besides the effectiveness in compression, DiSparse also provides a powerful tool to the multitask learning community. Surprisingly, we even observed better performance than some dedicated multitask learning methods in several cases despite the high model sparsity enforced by DiSparse. We analyzed the pruning masks generated with DiSparse and observed strikingly similar sparse network architecture identified by each task even before the training starts. We also observe the existence of a "watershed" layer where the task relatedness sharply drops, implying no benefits in continued parameters sharing. Our code and models will be available at: https://github.com/SHI-Labs/DiSparse-Multitask-Model-Compression.
Abstract（参考訳）: モデル圧縮とマルチタスク学習の人気にもかかわらず、パラメータ空間におけるタスクの難易度のため、マルチタスクモデルを効果的に圧縮する方法は、完全には分析されていない。本稿では,単純で効果的で初等的なマルチタスク・プラニングとスパース・トレーニング・スキームであるdisparseを提案する。パラメータ解析と選択を行う際,各タスクの重要度を分離し,全タスクの全体的決定を下すことで,各タスクを独立に検討する。実験結果は,一般的なスパーストレーニングおよびプルーニング法と比較して,各種設定および設定において優れた性能を示す。圧縮の有効性に加えて、DiSparseはマルチタスク学習コミュニティに強力なツールを提供する。驚くべきことに、DiSparseが実施した高モデル間隔にもかかわらず、いくつかのケースにおいて、いくつかの専用マルチタスク学習手法よりも優れたパフォーマンスが見られた。我々は,DiSparseで生成されたプルーニングマスクを解析し,トレーニング開始前でも各タスクで識別される顕著に類似したスパースネットワークアーキテクチャを観察した。また,タスク関連性が急激に低下する「流域」層の存在も観察し,継続するパラメータ共有のメリットを示唆している。私たちのコードとモデルは、https://github.com/SHI-Labs/DiSparse-Multitask-Model-Compressionで利用可能になります。

関連論文リスト

Localizing Task Information for Improved Model Merging and Compression [61.16012721460561]
我々は,各タスクの重み付けが重なり合わないことが多いため,各タスクがマージされた後も,各タスクの解決に必要な情報が保存されていることを示す。本稿では,そのような重みを排除し,既存のモデルマージ手法の一般的な性能を改善するアルゴリズムであるConsensus Mergingを提案する。
論文参考訳（メタデータ） (2024-05-13T14:54:37Z)
Cross-Task Affinity Learning for Multitask Dense Scene Predictions [5.939164722752263]
マルチタスク学習(MTL)は,複数のタスクを同時に予測する能力で注目されている。マルチタスクネットワークにおけるタスク改善を強化する軽量フレームワークであるクロスタスク親和性学習(CTAL)モジュールを紹介する。以上の結果から,CNNとトランスフォーマーの両バックボーンに対して,シングルタスク学習よりもはるかに少ないパラメータを用いて,最先端のMTL性能を実証した。
論文参考訳（メタデータ） (2024-01-20T05:31:47Z)
Concrete Subspace Learning based Interference Elimination for Multi-task Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文参考訳（メタデータ） (2023-12-11T07:24:54Z)
Sparsely Activated Mixture-of-Experts are Robust Multi-Task Learners [67.5865966762559]
本研究では,Mixture-of-Experts (MoE) がマルチタスク学習を改善するかを検討した。タスク認識ゲーティング関数を考案し、異なるタスクから専門の専門家にサンプルをルーティングする。これにより、多数のパラメータを持つ疎活性化マルチタスクモデルが得られるが、高密度モデルの計算コストは同じである。
論文参考訳（メタデータ） (2022-04-16T00:56:12Z)
Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文参考訳（メタデータ） (2022-03-30T23:16:07Z)
Pruning Pretrained Encoders with a Multitask Objective [12.062758391661847]
シングルタスクモデルのベストアンサンブルに対して,マルチタスクの目的と単一モデルのプルーニングを比較した。さらなる分析により、マルチタスクの目的をプルーニング中に使用することは、低リソースタスクのモデルサイズの削減に有効な方法であることがわかった。
論文参考訳（メタデータ） (2021-12-10T17:57:33Z)
Rethinking Hard-Parameter Sharing in Multi-Task Learning [20.792654758645302]
マルチタスク学習(MTL)におけるハードパラメータ共有により、タスクはモデルのパラメータの一部を共有でき、ストレージコストを低減し、予測精度を向上させることができる。共通の共有プラクティスは、タスク毎に別々のトップレイヤを使用しながら、タスク間でディープニューラルネットワークのボトムレイヤを共有することだ。異なるボトム層パラメータを使用することで、一般的なプラクティスよりも大幅にパフォーマンスが向上する可能性がある。
論文参考訳（メタデータ） (2021-07-23T17:26:40Z)
Parameter-Efficient Transfer Learning with Diff Pruning [108.03864629388404]
diff pruningは、プリトレイン・ファインチューンフレームワーク内でパラメータ効率の高い転送学習を可能にするシンプルなアプローチです。 diff pruningで微調整されたモデルは、GLUEベンチマークで完全に微調整されたベースラインのパフォーマンスと一致します。
論文参考訳（メタデータ） (2020-12-14T12:34:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。