論文の概要: EXPANSE: A Deep Continual / Progressive Learning System for Deep
Transfer Learning
- arxiv url: http://arxiv.org/abs/2205.10356v1
- Date: Thu, 19 May 2022 03:54:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 15:58:57.768462
- Title: EXPANSE: A Deep Continual / Progressive Learning System for Deep
Transfer Learning
- Title(参考訳): EXPANSE:Deep Transfer Learningのためのディープラーニング/プログレッシブ学習システム
- Authors: Mohammadreza Iman, John A. Miller, Khaled Rasheed, Robert M.
Branchinst, Hamid R. Arabnia
- Abstract要約: 現在のDTL技術は、破滅的な忘れジレンマまたは過度に偏った事前訓練モデルに悩まされている。
本稿では,これらの制約に対処する深層移動学習のための新しい連続的・進行的学習手法を提案する。
私たちは、人間の教育システムにインスパイアされたディープラーニングモデルをトレーニングする新しい方法を提供する。
- 参考スコア(独自算出の注目度): 1.1024591739346294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep transfer learning techniques try to tackle the limitations of deep
learning, the dependency on extensive training data and the training costs, by
reusing obtained knowledge. However, the current DTL techniques suffer from
either catastrophic forgetting dilemma (losing the previously obtained
knowledge) or overly biased pre-trained models (harder to adapt to target data)
in finetuning pre-trained models or freezing a part of the pre-trained model,
respectively. Progressive learning, a sub-category of DTL, reduces the effect
of the overly biased model in the case of freezing earlier layers by adding a
new layer to the end of a frozen pre-trained model. Even though it has been
successful in many cases, it cannot yet handle distant source and target data.
We propose a new continual/progressive learning approach for deep transfer
learning to tackle these limitations. To avoid both catastrophic forgetting and
overly biased-model problems, we expand the pre-trained model by expanding
pre-trained layers (adding new nodes to each layer) in the model instead of
only adding new layers. Hence the method is named EXPANSE. Our experimental
results confirm that we can tackle distant source and target data using this
technique. At the same time, the final model is still valid on the source data,
achieving a promising deep continual learning approach. Moreover, we offer a
new way of training deep learning models inspired by the human education
system. We termed this two-step training: learning basics first, then adding
complexities and uncertainties. The evaluation implies that the two-step
training extracts more meaningful features and a finer basin on the error
surface since it can achieve better accuracy in comparison to regular training.
EXPANSE (model expansion and two-step training) is a systematic continual
learning approach applicable to different problems and DL models.
- Abstract(参考訳): ディープトランスファー学習技術は、得られた知識を再利用することで、ディープラーニングの限界、広範なトレーニングデータへの依存、トレーニングコストに対処しようとする。
しかし、現在のDTL技術は、あらかじめ訓練されたモデルの微調整において、破滅的な忘れジレンマ(事前に取得した知識をなくす)または過度に偏った事前訓練されたモデル(ターゲットデータに適応するハード)に悩まされている。
DTLのサブカテゴリであるプログレッシブラーニング(Progressive Learning)は、凍結事前学習モデルの最後に新しい層を追加することで、初期の層を凍結する際の過度に偏りのあるモデルの効果を低減する。
多くの場合は成功したが、遠方のソースやターゲットデータを扱うことはできない。
本稿では,これらの制約に対処する深層移動学習のための連続・進行学習手法を提案する。
破滅的な忘れ方と過度に偏ったモデルの問題の両方を避けるために、事前学習されたレイヤ(各レイヤに新しいノードを追加する)をモデル内に拡張することで、事前学習されたモデルを拡張します。
そのため、この手法はEXPANSEと命名される。
実験結果から,この手法により遠方の音源と目標データに対処できることが確認された。
同時に、最終モデルは依然としてソースデータ上で有効であり、将来的な深層学習アプローチを実現する。
さらに、人間の教育システムにインスパイアされたディープラーニングモデルをトレーニングする新しい方法を提供する。
まず基礎を学習し、次に複雑さと不確実性を追加する。
評価の結果, 2段階のトレーニングは, 通常のトレーニングよりも精度が向上するため, より有意義な特徴と誤差面の微粒度を抽出できることがわかった。
EXPANSE (model expansion and two-step training) は、異なる問題やDLモデルに適用可能な体系的な連続学習手法である。
関連論文リスト
- Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [71.63186089279218]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - Fine-tuning can cripple your foundation model; preserving features may
be the solution [95.43355875644302]
タスク上の概念を認識できる微調整モデルの能力は、事前訓練されたモデルに比べて大幅に低下する。
本稿では,モデルが事前学習した知識を保存できる「textitLDIFS$」というファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T11:49:51Z) - Learning to Modulate pre-trained Models in RL [22.812215561012874]
訓練済みモデルの微調整は、しばしば破滅的な忘れ込みに悩まされる。
本研究は、ほとんどの微調整アプローチにおいて、事前学習タスクのパフォーマンスが著しく低下していることを示す。
凍結事前学習モデルの情報フローを変調することにより,学習スキルの劣化を回避する新しい手法L2Mを提案する。
論文 参考訳(メタデータ) (2023-06-26T17:53:05Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Revisiting the Updates of a Pre-trained Model for Few-shot Learning [11.871523410051527]
我々は2つの人気のある更新手法、微調整と線形探索を比較した。
試料数の増加に伴い, 微調整は線形探索より優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-13T08:47:06Z) - A Review of Deep Transfer Learning and Recent Advancements [1.3535770763481905]
ディープ・トランスファー・ラーニング(Deep Transfer Learning, DTL)は、このような制限に対処する手法である。
DTLは限られた対象データを扱うと同時に、トレーニングコストを大幅に削減します。
論文 参考訳(メタデータ) (2022-01-19T04:19:36Z) - An Efficient Method of Training Small Models for Regression Problems
with Knowledge Distillation [1.433758865948252]
回帰問題に対する知識蒸留の新しい定式化を提案する。
まず,教師モデル予測を用いて,教師モデルを用いた学習サンプルの退学率を下げる新たな損失関数,教師の退学率の減少を提案する。
マルチタスクネットワークを考えることで、学生モデルの特徴抽出の訓練がより効果的になる。
論文 参考訳(メタデータ) (2020-02-28T08:46:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。