論文の概要: TinySubNets: An efficient and low capacity continual learning strategy
- arxiv url: http://arxiv.org/abs/2412.10869v1
- Date: Sat, 14 Dec 2024 15:43:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:00:30.489448
- Title: TinySubNets: An efficient and low capacity continual learning strategy
- Title(参考訳): TinySubNets: 効率的で低容量な継続的学習戦略
- Authors: Marcin Pietroń, Kamil Faber, Dominik Żurek, Roberto Corizzo,
- Abstract要約: 連続学習(CL)は、最近の機械学習研究で注目を集めている非常に関連性の高い環境である。
TinySubNets (TSN) は、異なる空間レベルのプルーニング、適応量子化、およびウェイトシェアリングのユニークな組み合わせによってこの問題に対処する新しいアーキテクチャCL戦略である。
提案手法は,既存の最先端CL戦略よりも精度の高い結果が得られる。
- 参考スコア(独自算出の注目度): 0.794682109939797
- License:
- Abstract: Continual Learning (CL) is a highly relevant setting gaining traction in recent machine learning research. Among CL works, architectural and hybrid strategies are particularly effective due to their potential to adapt the model architecture as new tasks are presented. However, many existing solutions do not efficiently exploit model sparsity, and are prone to capacity saturation due to their inefficient use of available weights, which limits the number of learnable tasks. In this paper, we propose TinySubNets (TSN), a novel architectural CL strategy that addresses the issues through the unique combination of pruning with different sparsity levels, adaptive quantization, and weight sharing. Pruning identifies a subset of weights that preserve model performance, making less relevant weights available for future tasks. Adaptive quantization allows a single weight to be separated into multiple parts which can be assigned to different tasks. Weight sharing between tasks boosts the exploitation of capacity and task similarity, allowing for the identification of a better trade-off between model accuracy and capacity. These features allow TSN to efficiently leverage the available capacity, enhance knowledge transfer, and reduce computational resource consumption. Experimental results involving common benchmark CL datasets and scenarios show that our proposed strategy achieves better results in terms of accuracy than existing state-of-the-art CL strategies. Moreover, our strategy is shown to provide a significantly improved model capacity exploitation. Code released at: https://github.com/lifelonglab/tinysubnets.
- Abstract(参考訳): 連続学習(CL)は、最近の機械学習研究で注目を集めている非常に関連性の高い環境である。
CL作品の中で、アーキテクチャとハイブリッド戦略は、新しいタスクが提示されるにつれてモデルアーキテクチャに適応する可能性があるため、特に効果的である。
しかし、既存の多くのソリューションはモデル空間を効率的に利用せず、利用可能な重量の非効率な使用により、学習可能なタスクの数が制限されるため、キャパシティ飽和の傾向にある。
本稿では,新しいアーキテクチャCL戦略であるTinySubNets(TSN)を提案する。
プルーニング(Pruning)は、モデルパフォーマンスを保った重みのサブセットを特定し、将来のタスクにはあまり関係のない重みを与える。
適応量子化(Adaptive Quantization)は、1つの重みを複数の部分に分割し、異なるタスクに割り当てることを可能にする。
タスク間の重みの共有により、キャパシティとタスク類似性の利用が促進され、モデル精度とキャパシティのトレードオフがより良く識別できるようになる。
これらの特徴により、TSNは利用可能な容量を効率的に活用し、知識伝達を強化し、計算資源の消費を減らすことができる。
共通ベンチマーク CL データセットとシナリオを含む実験結果から,提案手法は既存の最先端 CL 戦略よりも精度の高い結果が得られることが示された。
さらに,本手法により,モデルキャパシティの大幅な向上が期待できる。
https://github.com/lifelonglab/tinysubnets.comでリリースされた。
関連論文リスト
- RECAST: Reparameterized, Compact weight Adaptation for Sequential Tasks [16.512587987753967]
RECASTはタスク固有のトレーニング可能なパラメータを50未満に劇的に削減する新しい手法である。
本稿では,RECASTが様々なスケール,アーキテクチャ,パラメータ空間において,最先端の技術を最大3%向上させることを示す。
論文 参考訳(メタデータ) (2024-11-25T19:08:38Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Ada-QPacknet -- adaptive pruning with bit width reduction as an
efficient continual learning method without forgetting [0.8681331155356999]
この作業では、新しいアーキテクチャベースのアプローチであるAda-QPacknetについて説明する。
タスクごとにサブネットワークを抽出するプルーニングが組み込まれている。
その結果,提案手法はタスクおよびクラスインクリメンタルシナリオにおいてCL戦略の大部分を上回っていることがわかった。
論文 参考訳(メタデータ) (2023-08-14T12:17:11Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Controllable Dynamic Multi-Task Architectures [92.74372912009127]
本稿では,そのアーキテクチャと重みを動的に調整し,所望のタスク選択とリソース制約に適合させる制御可能なマルチタスクネットワークを提案する。
本稿では,タスク親和性と分岐正規化損失を利用した2つのハイパーネットの非交互トレーニングを提案し,入力の嗜好を取り入れ,適応重み付き木構造モデルを予測する。
論文 参考訳(メタデータ) (2022-03-28T17:56:40Z) - Efficient Feature Transformations for Discriminative and Generative
Continual Learning [98.10425163678082]
継続的学習のための簡易タスク特化機能マップ変換戦略を提案する。
これらは新しいタスクを学習するための強力な柔軟性を提供し、ベースアーキテクチャに最小パラメータを追加することで実現される。
本手法の有効性と効率を,判別(cifar-100およびimagenet-1k)および生成的タスクの一連の実験を用いて実証する。
論文 参考訳(メタデータ) (2021-03-25T01:48:14Z) - SpaceNet: Make Free Space For Continual Learning [15.914199054779438]
本研究では,クラスインクリメンタル学習シナリオのための新しいアーキテクチャベースのSpaceNetを提案する。
SpaceNetは、複数のニューロンで各タスクのスパース接続を圧縮する適応的な方法で、スクラッチから深層ニューラルネットワークを訓練する。
実験により,従来のタスクを忘れることに対する提案手法のロバストさと,モデルが利用可能な容量を利用する場合のSpaceNetの効率性を示す。
論文 参考訳(メタデータ) (2020-07-15T11:21:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。