論文の概要: Less is More -- Towards parsimonious multi-task models using structured
sparsity
- arxiv url: http://arxiv.org/abs/2308.12114v3
- Date: Thu, 30 Nov 2023 15:26:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 20:10:28.410979
- Title: Less is More -- Towards parsimonious multi-task models using structured
sparsity
- Title(参考訳): less is more --structured sparsityを用いた並列型マルチタスクモデルへのアプローチ
- Authors: Richa Upadhyay, Ronald Phlypo, Rajkumar Saini, Marcus Liwicki
- Abstract要約: この作業は、パラメータが少ない複数のタスクに最適化されたスパースモデルを作成することに焦点を当てている。
マルチタスク学習モデルの共有畳み込み層パラメータ(あるいは重み付け)にチャネルワイズl1/l2グループ間隔を導入する。
広範に使用されている2つのマルチタスク学習(MTL)データセットにおいて,シングルタスクとマルチタスク設定の両方においてグループ間隔が生じた結果を分析した。
- 参考スコア(独自算出の注目度): 4.874780144224057
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model sparsification in deep learning promotes simpler, more interpretable
models with fewer parameters. This not only reduces the model's memory
footprint and computational needs but also shortens inference time. This work
focuses on creating sparse models optimized for multiple tasks with fewer
parameters. These parsimonious models also possess the potential to match or
outperform dense models in terms of performance. In this work, we introduce
channel-wise l1/l2 group sparsity in the shared convolutional layers parameters
(or weights) of the multi-task learning model. This approach facilitates the
removal of extraneous groups i.e., channels (due to l1 regularization) and also
imposes a penalty on the weights, further enhancing the learning efficiency for
all tasks (due to l2 regularization). We analyzed the results of group sparsity
in both single-task and multi-task settings on two widely-used Multi-Task
Learning (MTL) datasets: NYU-v2 and CelebAMask-HQ. On both datasets, which
consist of three different computer vision tasks each, multi-task models with
approximately 70% sparsity outperform their dense equivalents. We also
investigate how changing the degree of sparsification influences the model's
performance, the overall sparsity percentage, the patterns of sparsity, and the
inference time.
- Abstract(参考訳): ディープラーニングにおけるモデルスペーシフィケーションは、パラメータが少ないよりシンプルで解釈しやすいモデルを促進する。
これはモデルのメモリフットプリントと計算要求を減らすだけでなく、推論時間を短縮する。
この作業は、パラメータの少ない複数のタスクに最適化されたスパースモデルの作成に焦点を当てている。
これらの擬似モデルは、性能の点で密度の高いモデルに一致するか、より優れる可能性がある。
本研究では,マルチタスク学習モデルの共用畳み込み層パラメータ(あるいは重み付け)にチャネルワイズl1/l2グループ間隔を導入する。
このアプローチは、チャネル(l1正則化による)を外在的に除去し、重み付けにペナルティを課し、全てのタスク(l2正則化による)の学習効率をさらに高める。
nyu-v2とcelebamask-hqの2つのマルチタスク学習(mtl)データセットにおいて,シングルタスクとマルチタスクの両方におけるグループスパーシティの結果を分析した。
どちらのデータセットもそれぞれ3つの異なるコンピュータビジョンタスクで構成されており、約70%のスパーシティを持つマルチタスクモデルは、その密接な等価性を上回る。
また,スパーシフィケーションの程度の変化がモデルの性能,全体のスパーシティー率,スパーシティーのパターン,推測時間に与える影響についても検討した。
関連論文リスト
- On Giant's Shoulders: Effortless Weak to Strong by Dynamic Logits Fusion [23.63688816017186]
既存の弱強法では、静的な知識伝達比と、複雑な知識を伝達するための単一の小さなモデルを用いることが多い。
本稿では,複数のタスク固有小モデルに対して,それぞれ異なるタスクに特化して動作する動的ロジット融合手法を提案する。
本手法では,シングルタスクシナリオでは96.4%,マルチタスクシナリオでは86.3%のパフォーマンスギャップを埋める。
論文 参考訳(メタデータ) (2024-06-17T03:07:41Z) - Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。
本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。
特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文 参考訳(メタデータ) (2024-06-14T07:16:18Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Adaptive Weight Assignment Scheme For Multi-task Learning [0.0]
ディープラーニングモデルは、今ではすべてのアプリケーションで定期的に使われています。
複数のタスクを1つのモデルでマルチタスク学習設定でトレーニングできます。
マルチタスク学習環境でモデルをトレーニングするには、異なるタスクからの損失値をまとめる必要があります。
本稿では,モデルの性能を向上する単純な重み付け方式を提案する。
論文 参考訳(メタデータ) (2023-03-10T08:06:08Z) - DiSparse: Disentangled Sparsification for Multitask Model Compression [92.84435347164435]
DiSparseは、シンプルで効果的で、第一級のマルチタスクプルーニングとスパーストレーニングスキームである。
実験の結果,様々な設定や設定において優れた性能を示した。
論文 参考訳(メタデータ) (2022-06-09T17:57:46Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Rethinking Hard-Parameter Sharing in Multi-Task Learning [20.792654758645302]
マルチタスク学習(MTL)におけるハードパラメータ共有により、タスクはモデルのパラメータの一部を共有でき、ストレージコストを低減し、予測精度を向上させることができる。
共通の共有プラクティスは、タスク毎に別々のトップレイヤを使用しながら、タスク間でディープニューラルネットワークのボトムレイヤを共有することだ。
異なるボトム層パラメータを使用することで、一般的なプラクティスよりも大幅にパフォーマンスが向上する可能性がある。
論文 参考訳(メタデータ) (2021-07-23T17:26:40Z) - Reparameterizing Convolutions for Incremental Multi-Task Learning
without Task Interference [75.95287293847697]
マルチタスクモデルを開発する際の2つの一般的な課題は、しばしば文献で見過ごされる。
まず、モデルを本質的に漸進的に可能にし、以前に学んだことを忘れずに新しいタスクから情報を継続的に取り入れる(インクリメンタルラーニング)。
第二に、タスク間の有害な相互作用を排除し、マルチタスク設定(タスク干渉)においてシングルタスクのパフォーマンスを著しく低下させることが示されている。
論文 参考訳(メタデータ) (2020-07-24T14:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。