論文の概要: Continual Learning in Deep Networks: an Analysis of the Last Layer
- arxiv url: http://arxiv.org/abs/2106.01834v1
- Date: Thu, 3 Jun 2021 13:41:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-04 14:31:27.916013
- Title: Continual Learning in Deep Networks: an Analysis of the Last Layer
- Title(参考訳): 深層ネットワークにおける連続学習:最終層の解析
- Authors: Timoth\'ee Lesort, Thomas George, Irina Rish
- Abstract要約: 出力層における破滅的忘れ込みには,(1)重み付け,(2)干渉,(3)投射ドリフトの3因子が影響した。
最適な出力層タイプは、データ分散のドリフトや利用可能なデータ量に依存することを示す。
- 参考スコア(独自算出の注目度): 7.405588182540833
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study how different output layer types of a deep neural network learn and
forget in continual learning settings. We describe the three factors affecting
catastrophic forgetting in the output layer: (1) weights modifications, (2)
interferences, and (3) projection drift. Our goal is to provide more insights
into how different types of output layers can address (1) and (2). We also
propose potential solutions and evaluate them on several benchmarks. We show
that the best-performing output layer type depends on the data distribution
drifts or the amount of data available. In particular, in some cases where a
standard linear layer would fail, it is sufficient to change the
parametrization and get significantly better performance while still training
with SGD. Our results and analysis shed light on the dynamics of the output
layer in continual learning scenarios and help select the best-suited output
layer for a given scenario.
- Abstract(参考訳): ディープニューラルネットワークの異なる出力層タイプが,連続学習環境でどのように学習し,忘れていくかを検討する。
本報告では,(1)重量変化,(2)干渉,(3)投影ドリフトの3つの要因について述べる。
当社の目標は、さまざまなタイプの出力層が(1)と(2)にどのように対処できるか、さらなる洞察を提供することです。
また,提案手法を提案し,いくつかのベンチマークで評価する。
最適な出力層タイプは、データ分散のドリフトや利用可能なデータ量に依存することを示す。
特に、標準的な線形層が失敗するケースでは、SGDでトレーニングしながらパラメトリゼーションを変更し、パフォーマンスを大幅に向上させるのに十分である。
結果と分析は,連続学習シナリオにおけるアウトプット層のダイナミクスに光を当て,与えられたシナリオに最適なアウトプット層を選択するのに役立つ。
関連論文リスト
- Initialization Matters: On the Benign Overfitting of Two-Layer ReLU CNN with Fully Trainable Layers [20.25049261035324]
解析は、完全にトレーニング可能な層を持つ2層ReLU畳み込みニューラルネットワーク(CNN)に拡張する。
以上の結果から,出力層のスケーリングがトレーニングのダイナミックスに不可欠であることが示唆された。
どちらの設定でも、テストエラーの上限と下限にほぼ一致するものを提供します。
論文 参考訳(メタデータ) (2024-10-24T20:15:45Z) - Entropy Guided Extrapolative Decoding to Improve Factuality in Large Language Models [55.45444773200529]
大きな言語モデル(LLM)は印象的な自然言語能力を示すが、幻覚に苦しむ。
最近の研究は推論時の事実性を改善するための復号化技術に焦点を当てている。
論文 参考訳(メタデータ) (2024-04-14T19:45:35Z) - Layer-wise Linear Mode Connectivity [52.6945036534469]
ニューラルネットワークパラメータの平均化は、2つの独立したモデルの知識の直感的な方法である。
フェデレートラーニングにおいて最も顕著に用いられている。
私たちは、単一グループやグループを平均化するモデルの性能を分析します。
論文 参考訳(メタデータ) (2023-07-13T09:39:10Z) - Towards Efficient Fine-tuning of Pre-trained Code Models: An
Experimental Study and Beyond [52.656743602538825]
微調整された事前訓練されたコードモデルは、大きな計算コストを発生させる。
我々は、レイヤーワイドで事前訓練された表現と、微調整中に符号化されたコード知識に何が起こるのかを実験的に検討する。
本稿では,レイヤ凍結により事前学習したコードモデルを効率的に微調整するTellyを提案する。
論文 参考訳(メタデータ) (2023-04-11T13:34:13Z) - Surgical Fine-Tuning Improves Adaptation to Distribution Shifts [114.17184775397067]
分散シフト下での伝達学習の一般的なアプローチは、事前訓練されたモデルの最後の数層を微調整することである。
本稿は, 階層のサブセットを選択的に微調整する手法が, 一般的に用いられている微調整手法と一致し, 性能が良くないことを示す。
論文 参考訳(メタデータ) (2022-10-20T17:59:15Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - SuperDeConFuse: A Supervised Deep Convolutional Transform based Fusion
Framework for Financial Trading Systems [29.411173536818477]
本研究は、金融株取引のための教師付きマルチチャネル時系列学習フレームワークを提案する。
我々のアプローチは、データチャネルを別々の1次元畳み込み層で処理し、それから出力を一連の完全に接続された層で融合し、最終的にソフトマックス分類層を適用します。
数値実験により,提案モデルにより,ストックトレーディングの現実問題に対する最先端のディープラーニング技術よりもかなり優れた結果が得られることを確認した。
論文 参考訳(メタデータ) (2020-11-09T11:58:12Z) - Training with Multi-Layer Embeddings for Model Reduction [0.9046327456472286]
複数層埋め込み学習アーキテクチャを導入し, 一連の線形層を通して埋め込みを訓練する。
その結果,メモリフットプリントの精度が向上し,dを4~8倍削減できることがわかった。
論文 参考訳(メタデータ) (2020-06-10T02:47:40Z) - PLLay: Efficient Topological Layer based on Persistence Landscapes [24.222495922671442]
PLLayは、永続化ランドスケープに基づいた一般的なディープラーニングモデルのための新しいトポロジ的レイヤである。
任意の濾過を伴う一般的な永続ホモロジーに対して、層入力に関する微分可能性を示す。
論文 参考訳(メタデータ) (2020-02-07T13:34:22Z) - Fractional Skipping: Towards Finer-Grained Dynamic CNN Inference [82.96877371742532]
本研究では,ディープネットワークのための動的フラクタル・スキッピング(DFS)フレームワークを提案する。
DFSは層ワイド量子化(ビット幅の異なるもの)を、層を完全に活用してスキップする中間的な「ソフト」な選択として仮定する。
入力適応推論中の層の表現力を利用して、よりきめ細かい精度計算コストのトレードオフを可能にする。
論文 参考訳(メタデータ) (2020-01-03T03:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。