論文の概要: Same State, Different Task: Continual Reinforcement Learning without
Interference
- arxiv url: http://arxiv.org/abs/2106.02940v1
- Date: Sat, 5 Jun 2021 17:55:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-14 02:07:21.956293
- Title: Same State, Different Task: Continual Reinforcement Learning without
Interference
- Title(参考訳): 同じ状態、異なるタスク:干渉のない継続的強化学習
- Authors: Samuel Kessler, Jack Parker-Holder, Philip Ball, Stefan Zohren,
Stephen J. Roberts
- Abstract要約: 連続学習(CL)における主な課題は破滅的な忘れことであり、これは新しいタスクを学ぶ際に、以前にマスターされたタスクのパフォーマンスが低下したときに生じる。
干渉の有無で共有再生バッファを持つ単一ニューラルネットワーク予測器をベースとした既存のCL法が失敗することを示す。
本稿では,この課題に対処する簡単な方法であるOWLを提案する。OWLは,共有特徴抽出層を用いて因子化ポリシーを学習するが,それぞれが新しいタスクを専門とする分離ヘッドを学習する。
- 参考スコア(独自算出の注目度): 21.560701568064864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual Learning (CL) considers the problem of training an agent
sequentially on a set of tasks while seeking to retain performance on all
previous tasks. A key challenge in CL is catastrophic forgetting, which arises
when performance on a previously mastered task is reduced when learning a new
task. While a variety of methods exist to combat forgetting, in some cases
tasks are fundamentally incompatible with each other and thus cannot be learnt
by a single policy. This can occur, in reinforcement learning (RL) when an
agent may be rewarded for achieving different goals from the same observation.
In this paper we formalize this ``interference'' as distinct from the problem
of forgetting. We show that existing CL methods based on single neural network
predictors with shared replay buffers fail in the presence of interference.
Instead, we propose a simple method, OWL, to address this challenge. OWL learns
a factorized policy, using shared feature extraction layers, but separate
heads, each specializing on a new task. The separate heads in OWL are used to
prevent interference. At test time, we formulate policy selection as a
multi-armed bandit problem, and show it is possible to select the best policy
for an unknown task using feedback from the environment. The use of bandit
algorithms allows the OWL agent to constructively re-use different continually
learnt policies at different times during an episode. We show in multiple RL
environments that existing replay based CL methods fail, while OWL is able to
achieve close to optimal performance when training sequentially.
- Abstract(参考訳): 継続学習(continual learning, cl)は、エージェントを一連のタスクで順次訓練し、すべてのタスクでパフォーマンスを維持しようとする問題である。
CLの主な課題は破滅的な忘れことであり、これは新しいタスクを学ぶ際に、以前にマスターされたタスクのパフォーマンスが低下したときに生じる。
忘れることと戦うために様々な方法が存在するが、ある場合ではタスクは基本的に互いに相容れないので、1つのポリシーで学習することはできない。
これは、エージェントが同じ観察から異なる目標を達成することで報酬を受けることができる強化学習(RL)において起こりうる。
本稿では,この「干渉」を忘れる問題とは異なるものとして定式化する。
干渉の有無で共有再生バッファを持つ単一ニューラルネットワーク予測器に基づく既存のCL手法が失敗することを示す。
代わりに、この問題に対処するための簡単な方法OWLを提案する。
OWLは、共有特徴抽出レイヤを使用して、それぞれが新しいタスクを専門とする分離ヘッドを使用して、分解されたポリシーを学習する。
OWLの別個のヘッドは干渉を防ぐために使用される。
テスト時には,マルチアームバンディット問題としてポリシー選択を定式化し,環境からのフィードバックを用いて未知のタスクに最適なポリシーを選択することができることを示す。
バンディットアルゴリズムを使用することで、OWLエージェントはエピソード中に異なるタイミングで異なる学習ポリシーを構築的に再利用することができる。
複数のrl環境では、既存のリプレイベースのclメソッドが失敗し、owlは逐次トレーニング時に最適なパフォーマンスをほぼ達成できることを示した。
関連論文リスト
- Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - Learning impartial policies for sequential counterfactual explanations
using Deep Reinforcement Learning [0.0]
近年,SCFの発見政策を学習し,拡張性を高めるための強化学習法が提案されている。
本研究では,特定の行動に対する偏見など,望ましくない特性を持つポリシーを生じるような既存手法の欠点を同定する。
この効果を緩和するために,分類器の出力確率を用いてより情報的な報酬を生成することを提案する。
論文 参考訳(メタデータ) (2023-11-01T13:50:47Z) - Prior-Free Continual Learning with Unlabeled Data in the Wild [24.14279172551939]
本稿では,新しいタスクの学習モデルを段階的に更新するPFCL法を提案する。
PFCLはタスクのアイデンティティや以前のデータを知ることなく、新しいタスクを学習する。
実験の結果,PFCL法は3つの学習シナリオすべてにおいて,忘れを著しく軽減することがわかった。
論文 参考訳(メタデータ) (2023-10-16T13:59:56Z) - SkillS: Adaptive Skill Sequencing for Efficient Temporally-Extended
Exploration [21.764280583041703]
スキルの再利用は最も一般的なアプローチの1つだが、現在の手法にはかなりの制限がある。
これらの問題を緩和するための代替アプローチを導入する。
提案手法は,既存の時間的拡張スキルの探索を学習するが,生経験から直接最終方針を学習する。
論文 参考訳(メタデータ) (2022-11-24T18:05:01Z) - You Only Live Once: Single-Life Reinforcement Learning [124.1738675154651]
多くの現実世界の状況では、そのタスクを繰り返し実行できるポリシーを学ぶことではなく、単一のトライアルで1回だけ新しいタスクを成功させることが目的である。
エージェントが介入なしにひとつのエピソード内でタスクを完了しなければならない問題設定を形式化する。
本稿では,分散マッチング戦略を用いたQ$-weighted adversarial Learning (QWALE)を提案する。
論文 参考訳(メタデータ) (2022-10-17T09:00:11Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。