論文の概要: A Study of Continual Learning Methods for Q-Learning
- arxiv url: http://arxiv.org/abs/2206.03934v1
- Date: Wed, 8 Jun 2022 14:51:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-09 14:12:09.252723
- Title: A Study of Continual Learning Methods for Q-Learning
- Title(参考訳): Q-Learningにおける連続学習手法の検討
- Authors: Benedikt Bagus and Alexander Gepperth
- Abstract要約: 本稿では、強化学習(RL)シナリオにおける継続学習(CL)手法の使用に関する実証的研究について述べる。
この結果から,専用CL法は「経験的再生」のベースライン手法と比較して学習を著しく改善できることがわかった。
- 参考スコア(独自算出の注目度): 78.6363825307044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an empirical study on the use of continual learning (CL) methods
in a reinforcement learning (RL) scenario, which, to the best of our knowledge,
has not been described before. CL is a very active recent research topic
concerned with machine learning under non-stationary data distributions.
Although this naturally applies to RL, the use of dedicated CL methods is still
uncommon. This may be due to the fact that CL methods often assume a
decomposition of CL problems into disjoint sub-tasks of stationary
distribution, that the onset of these sub-tasks is known, and that sub-tasks
are non-contradictory. In this study, we perform an empirical comparison of
selected CL methods in a RL problem where a physically simulated robot must
follow a racetrack by vision. In order to make CL methods applicable, we
restrict the RL setting and introduce non-conflicting subtasks of known onset,
which are however not disjoint and whose distribution, from the learner's point
of view, is still non-stationary. Our results show that dedicated CL methods
can significantly improve learning when compared to the baseline technique of
"experience replay".
- Abstract(参考訳): 本稿では,強化学習(RL)シナリオにおける継続学習(CL)手法の使用に関する実証的研究について述べる。
clは、非定常データ分散下での機械学習に関する最近の研究テーマである。
これは自然にRLに適用されるが、専用CLメソッドの使用は依然として一般的ではない。
これは、CL法がCL問題を定常分布の解離部分タスクに分解することをしばしば前提としていること、これらのサブタスクの開始が知られていること、およびサブタスクが非矛盾であることによるかもしれない。
本研究では,物理シミュレーションロボットが視力によるレーストラックを追従しなければならないRL問題において,選択したCL手法の実証的な比較を行う。
clメソッドを適用可能にするため、rl設定を制限し、学習者の観点からは不一致であり、分布が不安定である既知の入力の非競合サブタスクを導入する。
その結果, CL法は, 基礎的手法である「経験的再生」と比較して, 学習を著しく改善できることがわかった。
関連論文リスト
- Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。
実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文 参考訳(メタデータ) (2024-11-18T08:20:21Z) - ICL-TSVD: Bridging Theory and Practice in Continual Learning with Pre-trained Models [103.45785408116146]
連続学習(CL)は、連続的に提示される複数のタスクを解決できるモデルを訓練することを目的としている。
最近のCLアプローチは、ダウンストリームタスクをうまく一般化する大規模な事前学習モデルを活用することで、強力なパフォーマンスを実現している。
しかし、これらの手法には理論的保証がなく、予期せぬ失敗をしがちである。
私たちは、経験的に強いアプローチを原則化されたフレームワークに統合することで、このギャップを埋めます。
論文 参考訳(メタデータ) (2024-10-01T12:58:37Z) - Can Continual Learning Improve Long-Tailed Recognition? Toward a Unified
Framework [16.457778420360537]
長大認識法は,より大きい頭部セットと小さいテールセットの両方からなるデータセットを正確に学習することを目的としている。
本研究では,学習者の重みを効果的に更新し,頭部を忘れずにタイルを学習できることを示す。
また,自然に不均衡な256データセット上でCLを探索することにより,実世界のデータに対するCL手法の適用性を評価する。
論文 参考訳(メタデータ) (2023-06-23T03:05:33Z) - CCL: Continual Contrastive Learning for LiDAR Place Recognition [5.025654873456756]
現在のディープラーニングベースの手法は、一般化能力の低下と破滅的な忘れ込みに悩まされている。
破滅的な忘れの問題に対処するために,CCLという連続的なコントラスト学習手法を提案する。
本手法は,最先端の継続的学習法よりも優れた環境下での異なる手法の性能を継続的に向上させる。
論文 参考訳(メタデータ) (2023-03-24T12:14:54Z) - Real-Time Evaluation in Online Continual Learning: A New Hope [104.53052316526546]
計算コストに関して,現在の継続学習(CL)手法を評価した。
簡単なベースラインは、この評価の下で最先端のCL法より優れている。
これは、既存のCL文献の大部分は、実用的でない特定の種類のストリームに適合していることを驚くほど示唆している。
論文 参考訳(メタデータ) (2023-02-02T12:21:10Z) - Beyond Supervised Continual Learning: a Review [69.9674326582747]
連続学習(Continuous Learning, CL)は、定常データ分布の通常の仮定を緩和または省略する機械学習のフレーバーである。
データ分布の変化は、いわゆる破滅的な忘れ(CF)効果、すなわち、過去の知識の突然の喪失を引き起こす可能性がある。
本稿では、CLを他の環境で研究する文献をレビューする。例えば、監督を減らした学習、完全に教師なしの学習、強化学習などである。
論文 参考訳(メタデータ) (2022-08-30T14:44:41Z) - Weakly Supervised Continual Learning [17.90483695137098]
この研究は、弱々しい監視された継続的学習(WSCL)を探求する
我々の提案は、教師付き情報が不足している場合に高い柔軟性を示すだけでなく、25%未満のラベルが、完全な監督の下で訓練されたSOTAメソッドに到達したり、性能を上回るのに十分であることを示す。
そこで本手法では, 教師付き情報が少ない場合に高い柔軟性を示すだけでなく, 25%未満のラベルが, 完全監督下で訓練されたSOTA手法に到達したり, 性能を向上させるのに十分であることを示す。
論文 参考訳(メタデータ) (2021-08-14T14:38:20Z) - Continual Learning in Recurrent Neural Networks [67.05499844830231]
リカレントニューラルネットワーク(RNN)を用いた逐次データ処理における連続学習手法の有効性を評価する。
RNNに弾性重み強化などの重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重
そこで本研究では,重み付け手法の性能が処理シーケンスの長さに直接的な影響を受けず,むしろ高動作メモリ要求の影響を受けていることを示す。
論文 参考訳(メタデータ) (2020-06-22T10:05:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。