論文の概要: Less is More -- Towards parsimonious multi-task models using structured
sparsity
- arxiv url: http://arxiv.org/abs/2308.12114v1
- Date: Wed, 23 Aug 2023 13:09:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 14:05:20.971282
- Title: Less is More -- Towards parsimonious multi-task models using structured
sparsity
- Title(参考訳): less is more --structured sparsityを用いた並列型マルチタスクモデルへのアプローチ
- Authors: Richa Upadhyay, Ronald Phlypo, Rajkumar Saini, Marcus Liwicki
- Abstract要約: 機械学習(ML)におけるグループ空間性は、より単純で、より解釈可能なモデルであり、アクティブなパラメータ群は少ない。
この研究は、マルチタスク学習フレームワークの共有パラメータに構造化されたグループ空間を組み込むことを目的としている。
- 参考スコア(独自算出の注目度): 4.874780144224057
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Group sparsity in Machine Learning (ML) encourages simpler, more
interpretable models with fewer active parameter groups. This work aims to
incorporate structured group sparsity into the shared parameters of a
Multi-Task Learning (MTL) framework, to develop parsimonious models that can
effectively address multiple tasks with fewer parameters while maintaining
comparable or superior performance to a dense model. Sparsifying the model
during training helps decrease the model's memory footprint, computation
requirements, and prediction time during inference. We use channel-wise l1/l2
group sparsity in the shared layers of the Convolutional Neural Network (CNN).
This approach not only facilitates the elimination of extraneous groups
(channels) but also imposes a penalty on the weights, thereby enhancing the
learning of all tasks. We compare the outcomes of single-task and multi-task
experiments under group sparsity on two publicly available MTL datasets, NYU-v2
and CelebAMask-HQ. We also investigate how changing the sparsification degree
impacts both the performance of the model and the sparsity of groups.
- Abstract(参考訳): 機械学習(ml)におけるグループスパーシティ(group sparsity)は、アクティブパラメータグループが少なく、よりシンプルで解釈可能なモデルを促進する。
本研究の目的は、マルチタスク学習(MTL)フレームワークの共有パラメータに構造化されたグループ空間を組み込むことであり、高密度モデルと同等あるいは優れた性能を維持しつつ、より少ないパラメータで複数のタスクを効果的に処理できる相似モデルを開発することである。
トレーニング中のモデルのスパース化は、モデルのメモリフットプリント、計算要件、推論中の予測時間を削減するのに役立つ。
畳み込みニューラルネットワーク(CNN)の共有層にチャネルワイドのl1/l2グループ間隔を用いる。
このアプローチは、外部グループ(チャネル)の排除を促進するだけでなく、重み付けにペナルティを課し、すべてのタスクの学習を促進する。
公開されている2つのMTLデータセット(NYU-v2とCelebAMask-HQ)について、グループ間隔でのシングルタスクとマルチタスク実験の結果を比較した。
また,スパーシフィケーション度の変化がモデルの性能とグループのスパーシリティに与える影響についても検討した。
関連論文リスト
- On Giant's Shoulders: Effortless Weak to Strong by Dynamic Logits Fusion [23.63688816017186]
既存の弱強法では、静的な知識伝達比と、複雑な知識を伝達するための単一の小さなモデルを用いることが多い。
本稿では,複数のタスク固有小モデルに対して,それぞれ異なるタスクに特化して動作する動的ロジット融合手法を提案する。
本手法では,シングルタスクシナリオでは96.4%,マルチタスクシナリオでは86.3%のパフォーマンスギャップを埋める。
論文 参考訳(メタデータ) (2024-06-17T03:07:41Z) - Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。
本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。
特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文 参考訳(メタデータ) (2024-06-14T07:16:18Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Adaptive Weight Assignment Scheme For Multi-task Learning [0.0]
ディープラーニングモデルは、今ではすべてのアプリケーションで定期的に使われています。
複数のタスクを1つのモデルでマルチタスク学習設定でトレーニングできます。
マルチタスク学習環境でモデルをトレーニングするには、異なるタスクからの損失値をまとめる必要があります。
本稿では,モデルの性能を向上する単純な重み付け方式を提案する。
論文 参考訳(メタデータ) (2023-03-10T08:06:08Z) - DiSparse: Disentangled Sparsification for Multitask Model Compression [92.84435347164435]
DiSparseは、シンプルで効果的で、第一級のマルチタスクプルーニングとスパーストレーニングスキームである。
実験の結果,様々な設定や設定において優れた性能を示した。
論文 参考訳(メタデータ) (2022-06-09T17:57:46Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Rethinking Hard-Parameter Sharing in Multi-Task Learning [20.792654758645302]
マルチタスク学習(MTL)におけるハードパラメータ共有により、タスクはモデルのパラメータの一部を共有でき、ストレージコストを低減し、予測精度を向上させることができる。
共通の共有プラクティスは、タスク毎に別々のトップレイヤを使用しながら、タスク間でディープニューラルネットワークのボトムレイヤを共有することだ。
異なるボトム層パラメータを使用することで、一般的なプラクティスよりも大幅にパフォーマンスが向上する可能性がある。
論文 参考訳(メタデータ) (2021-07-23T17:26:40Z) - Reparameterizing Convolutions for Incremental Multi-Task Learning
without Task Interference [75.95287293847697]
マルチタスクモデルを開発する際の2つの一般的な課題は、しばしば文献で見過ごされる。
まず、モデルを本質的に漸進的に可能にし、以前に学んだことを忘れずに新しいタスクから情報を継続的に取り入れる(インクリメンタルラーニング)。
第二に、タスク間の有害な相互作用を排除し、マルチタスク設定(タスク干渉)においてシングルタスクのパフォーマンスを著しく低下させることが示されている。
論文 参考訳(メタデータ) (2020-07-24T14:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。