論文の概要: Improving Knowledge Distillation in Transfer Learning with Layer-wise Learning Rates
- arxiv url: http://arxiv.org/abs/2407.04871v1
- Date: Fri, 5 Jul 2024 21:35:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 22:16:57.708327
- Title: Improving Knowledge Distillation in Transfer Learning with Layer-wise Learning Rates
- Title(参考訳): 階層的学習率による伝達学習における知識蒸留の改善
- Authors: Shirley Kokane, Mostofa Rafid Uddin, Min Xu,
- Abstract要約: 本稿では,出力アクティベーションのヤコビアン/アテンション/ヘシアン差の関数として,層ごとの学習パラメータを調整する階層ワイズ学習方式を提案する。
幅広いデータセットに対する学習性能と安定性が改善されました。
- 参考スコア(独自算出の注目度): 6.783548275689542
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transfer learning methods start performing poorly when the complexity of the learning task is increased. Most of these methods calculate the cumulative differences of all the matched features and then use them to back-propagate that loss through all the layers. Contrary to these methods, in this work, we propose a novel layer-wise learning scheme that adjusts learning parameters per layer as a function of the differences in the Jacobian/Attention/Hessian of the output activations w.r.t. the network parameters. We applied this novel scheme for attention map-based and derivative-based (first and second order) transfer learning methods. We received improved learning performance and stability against a wide range of datasets. From extensive experimental evaluation, we observed that the performance boost achieved by our method becomes more significant with the increasing difficulty of the learning task.
- Abstract(参考訳): 伝達学習手法は、学習タスクの複雑さが増大すると、性能が低下し始める。
これらの手法のほとんどは、一致した全ての特徴の累積差を計算し、すべての層を通して損失をバックプロパゲートするためにそれらを使用する。
これらの手法とは対照的に,ネットワークパラメータの出力アクティベーションのJacobian/Attention/Hessianの違いの関数として,階層ごとの学習パラメータを調整する新しい階層学習方式を提案する。
本研究では,この新しい手法を注目マップベースおよび導関数ベース(第1および第2次)転送学習法に適用した。
幅広いデータセットに対する学習性能と安定性が改善されました。
実験結果から,学習課題の難易度が増大するにつれて,本手法により達成される性能向上がより重要になることが明らかとなった。
関連論文リスト
- Reducing catastrophic forgetting of incremental learning in the absence of rehearsal memory with task-specific token [0.6144680854063939]
ディープラーニングモデルは、新しいデータを継続的に学習する際に破滅的な忘れを見せる。
本稿では,従来のデータを保存することなく,過去の知識を保存できる新しい手法を提案する。
この方法は視覚変換器のアーキテクチャにインスパイアされ、各タスクの圧縮された知識をカプセル化できるユニークなトークンを使用する。
論文 参考訳(メタデータ) (2024-11-06T16:13:50Z) - Normalization and effective learning rates in reinforcement learning [52.59508428613934]
正規化層は近年,深層強化学習と連続学習文学においてルネッサンスを経験している。
正規化は、ネットワークパラメータのノルムにおける成長と効果的な学習速度における崩壊の間の等価性という、微妙だが重要な副作用をもたらすことを示す。
そこで本研究では,正規化・プロジェクトと呼ぶ単純な再パラメータ化により,学習率を明示的にする手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:58:01Z) - Contrastive-Adversarial and Diffusion: Exploring pre-training and fine-tuning strategies for sulcal identification [3.0398616939692777]
対人学習、コントラスト学習、拡散認知学習、通常の再構成学習といった技術が標準となっている。
この研究は、ニューラルネットワークの学習プロセスを強化するために、事前学習技術と微調整戦略の利点を解明することを目的としている。
論文 参考訳(メタデータ) (2024-05-29T15:44:51Z) - From Pretext to Purpose: Batch-Adaptive Self-Supervised Learning [32.18543787821028]
本稿では,自己教師付きコントラスト学習におけるバッチ融合の適応的手法を提案する。
公平な比較で最先端のパフォーマンスを達成する。
提案手法は,データ駆動型自己教師型学習研究の進展に寄与する可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-16T15:47:49Z) - Weighted Ensemble Self-Supervised Learning [67.24482854208783]
組み立ては、モデルパフォーマンスを高めるための強力なテクニックであることが証明されている。
我々は,データ依存型重み付きクロスエントロピー損失を許容するフレームワークを開発した。
提案手法は、ImageNet-1K上での複数の評価指標において、両者に優れる。
論文 参考訳(メタデータ) (2022-11-18T02:00:17Z) - Relational Experience Replay: Continual Learning by Adaptively Tuning
Task-wise Relationship [54.73817402934303]
本稿では,2段階の学習フレームワークである経験連続再生(ERR)を提案する。
ERRは、すべてのベースラインの性能を一貫して改善し、現在の最先端の手法を超えることができる。
論文 参考訳(メタデータ) (2021-12-31T12:05:22Z) - Incremental Embedding Learning via Zero-Shot Translation [65.94349068508863]
現在の最先端のインクリメンタル学習手法は、従来の分類ネットワークにおける破滅的な忘れ方問題に取り組む。
ゼロショット変換クラス増分法(ZSTCI)と呼ばれる新しい組込みネットワークのクラス増分法を提案する。
さらに、ZSTCIを既存の正規化ベースのインクリメンタル学習手法と組み合わせることで、組み込みネットワークの性能をより向上させることができる。
論文 参考訳(メタデータ) (2020-12-31T08:21:37Z) - Multi-task Supervised Learning via Cross-learning [102.64082402388192]
我々は,様々なタスクを解くことを目的とした回帰関数の集合を適合させることで,マルチタスク学習と呼ばれる問題を考える。
我々の新しい定式化では、これらの関数のパラメータを2つに分けて、互いに近づきながらタスク固有のドメインで学習する。
これにより、異なるドメインにまたがって収集されたデータが、互いのタスクにおける学習パフォーマンスを改善するのに役立つ、クロス・ファーティライズが促進される。
論文 参考訳(メタデータ) (2020-10-24T21:35:57Z) - Disentangling Adaptive Gradient Methods from Learning Rates [65.0397050979662]
適応的勾配法が学習率のスケジュールとどのように相互作用するかを、より深く検討する。
我々は、更新の規模をその方向から切り離す"グラフティング"実験を導入する。
適応勾配法の一般化に関する経験的および理論的考察を示す。
論文 参考訳(メタデータ) (2020-02-26T21:42:49Z) - Inter- and Intra-domain Knowledge Transfer for Related Tasks in Deep
Character Recognition [2.320417845168326]
ImageNetデータセットでディープニューラルネットワークを事前トレーニングすることは、ディープラーニングモデルをトレーニングするための一般的なプラクティスである。
1つのタスクで事前トレーニングを行い、新しいタスクで再トレーニングするテクニックは、トランスファーラーニング(transfer learning)と呼ばれる。
本稿では,文字認識タスクにおけるDeep Transfer Learningの有効性について分析する。
論文 参考訳(メタデータ) (2020-01-02T14:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。