論文の概要: Continual Learning in the Teacher-Student Setup: Impact of Task
Similarity
- arxiv url: http://arxiv.org/abs/2107.04384v1
- Date: Fri, 9 Jul 2021 12:30:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-12 13:53:52.816720
- Title: Continual Learning in the Teacher-Student Setup: Impact of Task
Similarity
- Title(参考訳): 教師-学生組立における継続的な学習 : 課題類似性の影響
- Authors: Sebastian Lee and Sebastian Goldt and Andrew Saxe
- Abstract要約: 教師-学生設定における2層ネットワークにおける破滅的忘れについて検討する。
タスクが類似した機能に依存する場合、中間タスクの類似性が最大の忘れ物となる。
両者の類似性、初期転送/鍛造率、最大転送/鍛造率、長期転送/鍛造率の複雑な相互作用を見出した。
- 参考スコア(独自算出の注目度): 5.1135133995376085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual learning-the ability to learn many tasks in sequence-is critical
for artificial learning systems. Yet standard training methods for deep
networks often suffer from catastrophic forgetting, where learning new tasks
erases knowledge of earlier tasks. While catastrophic forgetting labels the
problem, the theoretical reasons for interference between tasks remain unclear.
Here, we attempt to narrow this gap between theory and practice by studying
continual learning in the teacher-student setup. We extend previous analytical
work on two-layer networks in the teacher-student setup to multiple teachers.
Using each teacher to represent a different task, we investigate how the
relationship between teachers affects the amount of forgetting and transfer
exhibited by the student when the task switches. In line with recent work, we
find that when tasks depend on similar features, intermediate task similarity
leads to greatest forgetting. However, feature similarity is only one way in
which tasks may be related. The teacher-student approach allows us to
disentangle task similarity at the level of readouts (hidden-to-output weights)
and features (input-to-hidden weights). We find a complex interplay between
both types of similarity, initial transfer/forgetting rates, maximum
transfer/forgetting, and long-term transfer/forgetting. Together, these results
help illuminate the diverse factors contributing to catastrophic forgetting.
- Abstract(参考訳): 連続学習-シーケンスで多くのタスクを学習する能力は、人工知能システムにとって重要である。
しかし、ディープネットワークの標準的なトレーニング方法は、新しいタスクの学習が以前のタスクの知識を消去する壊滅的な忘れに苦しむことが多い。
大惨事は問題を忘れるが、タスク間の干渉の理論的理由は不明である。
そこで本研究では,教師の学習環境において継続学習を学習することで,理論と実践のギャップを狭めようとする。
教師-学生構成における2層ネットワークに関する過去の分析作業を複数の教師に拡張する。
各教師が異なるタスクを表現するために,教師間の関係が,タスク切替時の生徒が提示する忘れや転校の量にどのように影響するかを検討する。
最近の研究によると、タスクが類似した機能に依存する場合、中間タスクの類似性が最大の忘れ物となる。
しかし、機能的類似性はタスクが関係する1つの方法である。
教師と学生のアプローチは、読み出し(隠れる重み)と特徴(隠れる重み)のレベルでタスクの類似性を分離することを可能にします。
両者の類似性、初期転送/フォーゲッティング率、最大転送/フォーゲティング、長期転送/フォーゲティングの複雑な相互作用を見出す。
これらの結果は、壊滅的な忘れに寄与する様々な要因を照らすのに役立つ。
関連論文リスト
- Disentangling and Mitigating the Impact of Task Similarity for Continual Learning [1.3597551064547502]
部分的に類似したタスクの継続的な学習は、人工知能ニューラルネットワークの課題となる。
高い入力特徴類似性と低い読み出し類似性は、知識伝達と保持の両方において破滅的である。
フィッシャー情報量に基づく重み正規化は,タスクの類似性にかかわらず,保持率を著しく向上させる。
論文 参考訳(メタデータ) (2024-05-30T16:40:07Z) - Multitask Learning with No Regret: from Improved Confidence Bounds to
Active Learning [79.07658065326592]
推定タスクの不確実性の定量化は、オンラインやアクティブな学習など、多くの下流アプリケーションにとって重要な課題である。
タスク間の類似性やタスクの特徴を学習者に提供できない場合、課題設定において新しいマルチタスク信頼区間を提供する。
本稿では,このパラメータを事前に知らないまま,このような改善された後悔を実現する新しいオンライン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-03T13:08:09Z) - Task Compass: Scaling Multi-task Pre-training with Task Prefix [122.49242976184617]
既存の研究では、大規模教師付きタスクによるマルチタスク学習がタスク間の負の効果に悩まされていることが示されている。
タスク間の関係を探索するために,タスクプレフィックスガイド付きマルチタスク事前学習フレームワークを提案する。
我々のモデルは、幅広いタスクの強力な基盤バックボーンとして機能するだけでなく、タスク関係を分析するための探索ツールとしても実現可能である。
論文 参考訳(メタデータ) (2022-10-12T15:02:04Z) - Saliency-Regularized Deep Multi-Task Learning [7.3810864598379755]
マルチタスク学習は、知識を共有するために複数の学習タスクを強制し、一般化能力を改善する。
現代のディープマルチタスク学習は、潜在機能とタスク共有を共同で学習することができるが、それらはタスク関係において不明瞭である。
本稿では,潜在的特徴と明示的な課題関係を共同で学習するマルチタスク学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-03T20:26:44Z) - Generalized Knowledge Distillation via Relationship Matching [53.69235109551099]
よく訓練されたディープニューラルネットワーク(いわゆる「教師」)の知識は、同様のタスクを学ぶのに有用である。
知識蒸留は教師から知識を抽出し、対象モデルと統合する。
教師に学生と同じ仕事をさせる代わりに、一般のラベル空間から訓練を受けた教師の知識を借りる。
論文 参考訳(メタデータ) (2022-05-04T06:49:47Z) - Distilling Knowledge via Knowledge Review [69.15050871776552]
教師と学生のネットワーク間の接続経路のクロスレベル要因を研究し、その大きな重要性を明らかにします。
知識蒸留において初めて, クロスステージ接続経路が提案されている。
最終的に設計されたネストでコンパクトなフレームワークは、無視できるオーバーヘッドを必要とし、さまざまなタスクで他のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-04-19T04:36:24Z) - Continual Learning in Low-rank Orthogonal Subspaces [86.36417214618575]
連続学習(CL)では、学習者は一連のタスクに直面して次々に到着し、学習経験が終わるとすべてのタスクを覚えることが目的である。
CLの以前の技術は、タスク間の干渉を減らすためにエピソードメモリ、パラメータ正規化、ネットワーク構造を使用していたが、最終的には、全てのアプローチが共同ベクトル空間で異なるタスクを学習する。
干渉を最小限に抑えるために互いに直交する異なる(低ランクな)ベクトル部分空間でタスクを学習することを提案する。
論文 参考訳(メタデータ) (2020-10-22T12:07:43Z) - Neural Multi-Task Learning for Teacher Question Detection in Online
Classrooms [50.19997675066203]
教師の音声記録から質問を自動的に検出するエンドツーエンドのニューラルネットワークフレームワークを構築している。
マルチタスク学習手法を取り入れることで,質問の種類によって意味的関係の理解を深めることが可能となる。
論文 参考訳(メタデータ) (2020-05-16T02:17:04Z) - Multitask learning over graphs: An Approach for Distributed, Streaming
Machine Learning [46.613346075513206]
マルチタスク学習は帰納的伝達学習のアプローチである。
近年、分散ストリーミング方式でデータを収集する能力が高まっている。
これは、分散(またはネットワーク化された)システム上でのストリーミングデータから、複数のタスクを共同で学習するための新しい戦略の設計を必要とする。
論文 参考訳(メタデータ) (2020-01-07T15:32:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。