論文の概要: Layerwise Optimization by Gradient Decomposition for Continual Learning
- arxiv url: http://arxiv.org/abs/2105.07561v1
- Date: Mon, 17 May 2021 01:15:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-18 15:02:18.854992
- Title: Layerwise Optimization by Gradient Decomposition for Continual Learning
- Title(参考訳): 逐次学習のための勾配分解による階層最適化
- Authors: Shixiang Tang, Dapeng Chen, Jinguo Zhu, Shijie Yu and Wanli Ouyang
- Abstract要約: ディープニューラルネットワークは、様々な領域で最先端の超人的パフォーマンスを実現します。
タスクを逐次学習する場合、ネットワークは「破滅的忘れ」と呼ばれる過去のタスクの知識を忘れやすい。
- 参考スコア(独自算出の注目度): 78.58714373218118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks achieve state-of-the-art and sometimes super-human
performance across various domains. However, when learning tasks sequentially,
the networks easily forget the knowledge of previous tasks, known as
"catastrophic forgetting". To achieve the consistencies between the old tasks
and the new task, one effective solution is to modify the gradient for update.
Previous methods enforce independent gradient constraints for different tasks,
while we consider these gradients contain complex information, and propose to
leverage inter-task information by gradient decomposition. In particular, the
gradient of an old task is decomposed into a part shared by all old tasks and a
part specific to that task. The gradient for update should be close to the
gradient of the new task, consistent with the gradients shared by all old
tasks, and orthogonal to the space spanned by the gradients specific to the old
tasks. In this way, our approach encourages common knowledge consolidation
without impairing the task-specific knowledge. Furthermore, the optimization is
performed for the gradients of each layer separately rather than the
concatenation of all gradients as in previous works. This effectively avoids
the influence of the magnitude variation of the gradients in different layers.
Extensive experiments validate the effectiveness of both gradient-decomposed
optimization and layer-wise updates. Our proposed method achieves
state-of-the-art results on various benchmarks of continual learning.
- Abstract(参考訳): ディープニューラルネットワークは、様々な領域にわたる最先端の超人的なパフォーマンスを実現する。
しかし、タスクを逐次学習する場合、ネットワークは「破滅的な忘れ」として知られる以前のタスクの知識を忘れやすい。
古いタスクと新しいタスクの相補性を達成するために、1つの効果的な解決策は、更新のための勾配を変更することである。
従来の手法では,これらの勾配には複雑な情報が含まれており,勾配分解によるタスク間情報の活用が提案されている。
特に、古いタスクの勾配は、すべての古いタスクで共有される部分と、そのタスクに特有の部分に分解される。
更新の勾配は、新しいタスクの勾配に近いものでなければならず、すべての古いタスクが共有する勾配と一致し、古いタスクに特有の勾配にまたがる空間に直交する。
このようにして,タスク固有の知識を損なうことなく,共通知識の統合を促す。
さらに、従来のように全ての勾配の連結ではなく、各層の勾配を別々に最適化する。
これにより、異なる層における勾配のマグニチュード変動の影響を効果的に回避できる。
広範な実験により、勾配分解最適化と層別更新の両方の有効性が検証された。
提案手法は,連続学習の様々なベンチマークで最新の結果を得る。
関連論文リスト
- How to guess a gradient [68.98681202222664]
我々は、勾配が以前考えられていたよりもより構造化されていることを示す。
この構造をエクスプロイトすると、勾配のない最適化スキームが大幅に改善される。
厳密な勾配の最適化と勾配の推測の間に大きなギャップを克服する上での新たな課題を強調した。
論文 参考訳(メタデータ) (2023-12-07T21:40:44Z) - Class Gradient Projection For Continual Learning [99.105266615448]
破滅的な忘れは継続的学習(CL)における最も重要な課題の1つです。
タスクではなく個々のクラスから勾配部分空間を計算するクラスグラディエント・プロジェクション(CGP)を提案する。
論文 参考訳(メタデータ) (2023-11-25T02:45:56Z) - Gradient Coordination for Quantifying and Maximizing Knowledge
Transference in Multi-Task Learning [11.998475119120531]
マルチタスク学習(MTL)はオンライン広告やレコメンデーションシステムに広く応用されている。
本稿では,知識伝達を適応的に最大化する伝達駆動型アプローチCoGradを提案する。
論文 参考訳(メタデータ) (2023-03-10T10:42:21Z) - Continual Learning with Scaled Gradient Projection [8.847574864259391]
ニューラルネットワークでは、連続学習はシーケンシャルタスク間の勾配干渉を引き起こし、新しいタスクを学習しながら古いタスクを忘れてしまう。
本稿では,忘れを最小化しつつ,新しい学習を改善するためのスケールドグラディエント・プロジェクション(SGP)手法を提案する。
画像の連続的分類から強化学習タスクまでに及ぶ実験を行い、最先端の手法よりも訓練オーバーヘッドの少ない性能を報告した。
論文 参考訳(メタデータ) (2023-02-02T19:46:39Z) - Delving into Effective Gradient Matching for Dataset Condensation [13.75957901381024]
勾配マッチング法は、元のデータセットと合成データセットのトレーニング時に勾配をマッチングすることで、トレーニングダイナミクスを直接ターゲットとする。
クラス内勾配情報とクラス間勾配情報の両方を含む多段階勾配情報とを一致させることを提案する。
アルゴリズムの効率向上のための不要な最適化ステップをトリムするために、過適合適応学習ステップ戦略も提案されている。
論文 参考訳(メタデータ) (2022-07-30T21:31:10Z) - Continuous-Time Meta-Learning with Forward Mode Differentiation [65.26189016950343]
本稿では,勾配ベクトル場の力学に適応するメタ学習アルゴリズムであるContinuous Meta-Learning(COMLN)を紹介する。
学習プロセスをODEとして扱うことは、軌跡の長さが現在連続しているという顕著な利点を提供する。
本稿では,実行時とメモリ使用時の効率を実証的に示すとともに,いくつかの画像分類問題に対して有効性を示す。
論文 参考訳(メタデータ) (2022-03-02T22:35:58Z) - Conflict-Averse Gradient Descent for Multi-task Learning [56.379937772617]
マルチタスクモデルを最適化する際の大きな課題は、矛盾する勾配である。
本稿では、平均損失関数を最小化する衝突-逆勾配降下(CAGrad)を導入する。
CAGradは目標を自動的にバランスし、平均損失よりも最小限に確実に収束する。
論文 参考訳(メタデータ) (2021-10-26T22:03:51Z) - TAG: Task-based Accumulated Gradients for Lifelong learning [21.779858050277475]
タスク間の関連性に基づいて学習率を適応させるタスク認識システムを提案する。
提案する適応学習率は, 破滅的な記憶の喪失だけでなく, 正の後方移動にも寄与することを示した。
論文 参考訳(メタデータ) (2021-05-11T16:10:32Z) - Gradient Projection Memory for Continual Learning [5.43185002439223]
過去のタスクを忘れずに継続的に学習する能力は、人工学習システムにとって望ましい属性です。
ニューラルネットワークは,従来のタスクにとって重要と考えられる勾配部分空間に直交方向の勾配を向けることで,新しいタスクを学習する手法を提案する。
論文 参考訳(メタデータ) (2021-03-17T16:31:29Z) - Regularizing Meta-Learning via Gradient Dropout [102.29924160341572]
メタ学習モデルは、メタ学習者が一般化するのに十分なトレーニングタスクがない場合、過度に適合する傾向がある。
本稿では,勾配に基づくメタ学習において過度に適合するリスクを軽減するための,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2020-04-13T10:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。