論文の概要: Dark Experience for General Continual Learning: a Strong, Simple
Baseline
- arxiv url: http://arxiv.org/abs/2004.07211v2
- Date: Thu, 22 Oct 2020 14:00:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 02:55:47.644497
- Title: Dark Experience for General Continual Learning: a Strong, Simple
Baseline
- Title(参考訳): 一般連続学習のための暗黒体験--強固でシンプルなベースライン
- Authors: Pietro Buzzega, Matteo Boschini, Angelo Porrello, Davide Abati, Simone
Calderara
- Abstract要約: タスク境界が曖昧になり,ドメインやクラス分布が徐々に,あるいは突然に変化するような,汎用連続学習(General Continual Learning, GCL)に向かっています。
我々の単純なベースラインであるダークエクスペリエンス・リプレイは、最適化軌道を通してサンプリングされたネットワークのログと一致します。
標準ベンチマークと新しいGCL評価設定(MNIST-360)の両方を広範囲に解析することにより、このような単純なベースラインが統合されたアプローチよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 18.389103500859804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual Learning has inspired a plethora of approaches and evaluation
settings; however, the majority of them overlooks the properties of a practical
scenario, where the data stream cannot be shaped as a sequence of tasks and
offline training is not viable. We work towards General Continual Learning
(GCL), where task boundaries blur and the domain and class distributions shift
either gradually or suddenly. We address it through mixing rehearsal with
knowledge distillation and regularization; our simple baseline, Dark Experience
Replay, matches the network's logits sampled throughout the optimization
trajectory, thus promoting consistency with its past. By conducting an
extensive analysis on both standard benchmarks and a novel GCL evaluation
setting (MNIST-360), we show that such a seemingly simple baseline outperforms
consolidated approaches and leverages limited resources. We further explore the
generalization capabilities of our objective, showing its regularization being
beneficial beyond mere performance.
- Abstract(参考訳): 継続的学習は多くのアプローチと評価設定に影響を与えているが、その大半は、データストリームがタスクのシーケンスとして形作られず、オフライントレーニングが実行不可能である、実用的なシナリオの性質を見落としている。
タスク境界がぼやけ、ドメインとクラス分布が徐々にあるいは突然にシフトする、一般的な連続学習(gcl)に取り組んでいます。
我々の単純なベースラインであるダーク・エクスペリエンス・リプレイは、最適化軌道を通じてサンプリングされたネットワークのロジットと一致し、過去との一貫性を促進する。
標準ベンチマークと新しいgcl評価設定(mnist-360)の両方を広範囲に分析することにより、このような単純なベースラインが統合アプローチよりも優れ、限られた資源を活用できることを示した。
我々は、目的の一般化能力をさらに探求し、その正規化は単なるパフォーマンス以上の有益であることを示す。
関連論文リスト
- Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。
実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文 参考訳(メタデータ) (2024-11-18T08:20:21Z) - Zero-Shot Generalization during Instruction Tuning: Insights from Similarity and Granularity [84.12126298229866]
命令チューニング中のゼロショット一般化は非常に早い時期に行われることを示す。
また、「タスク」の制約を伴わずに、命令チューニング中に非常によく似た、きめ細かなトレーニングデータに遭遇することで、より一般化できることを示す。
インストラクションチューニング中のゼロショット一般化は、インスタンスレベルでのトレーニングとテストデータ間の類似性に基づく一般化の形式であることを示す。
論文 参考訳(メタデータ) (2024-06-17T16:40:21Z) - Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - Random Representations Outperform Online Continually Learned Representations [68.42776779425978]
既存のオンライン学習深層ネットワークは、単純な事前定義されたランダム変換に比べて劣った表現を生成することを示す。
我々の手法はRanDumbと呼ばれ、あらゆるオンライン連続学習ベンチマークにおいて、最先端の学習表現を著しく上回っている。
本研究は, 表現学習の大きな限界, 特に低経験, オンライン連続学習のシナリオについて明らかにした。
論文 参考訳(メタデータ) (2024-02-13T22:07:29Z) - Challenges and Opportunities in Offline Reinforcement Learning from
Visual Observations [58.758928936316785]
連続的な行動空間を持つ視覚的観察からオフラインの強化学習は未探索のままである。
2つの一般的な視覚に基づくオンライン強化学習アルゴリズムの変更は、既存のオフラインRL法より優れていることを示す。
論文 参考訳(メタデータ) (2022-06-09T22:08:47Z) - Generalized Variational Continual Learning [33.194866396158005]
継続的学習の主なアプローチは、オンラインのElastic Weight Consolidationと変分連続学習である。
この修正により、オンラインEWCを制限ケースとして緩和し、2つのアプローチ間のベースラインを確保できることを示す。
VIのオーバープルーニング効果を観測するために、共通マルチタスクアーキテクチャからインスピレーションを得て、タスク固有のFiLM層によるニューラルネットワークを緩和する。
論文 参考訳(メタデータ) (2020-11-24T19:07:39Z) - Reinforcement Learning for Weakly Supervised Temporal Grounding of
Natural Language in Untrimmed Videos [134.78406021194985]
我々は、時間境界のない粗いビデオレベルの言語記述アノテーションにのみアクセス可能な、このタスクの弱教師付き設定に焦点を当てる。
本稿では,時間境界を段階的に洗練する過程を指導するために,強化学習を利用したemphBoundary Adaptive Refinement(BAR)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-18T03:32:47Z) - Few-Shot Unsupervised Continual Learning through Meta-Examples [21.954394608030388]
教師なしメタコンチネンタル学習とタスクのバランスが取れない新しい複雑な設定を導入する。
我々は、破滅的な忘れを同時に軽減し、新しいタスクへの一般化を優先するメタラーニング手法を利用する。
数ショットの学習ベンチマークによる実験結果から, 教師付きケースと比較して, 競争性能が向上した。
論文 参考訳(メタデータ) (2020-09-17T07:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。