論文の概要: All You Need Is Supervised Learning: From Imitation Learning to Meta-RL
With Upside Down RL
- arxiv url: http://arxiv.org/abs/2202.11960v1
- Date: Thu, 24 Feb 2022 08:44:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-25 16:20:52.556021
- Title: All You Need Is Supervised Learning: From Imitation Learning to Meta-RL
With Upside Down RL
- Title(参考訳): 学習を監督することだけ: 模倣学習から、逆さまのrlでメタrlまで
- Authors: Kai Arulkumaran, Dylan R. Ashley, J\"urgen Schmidhuber, Rupesh K.
Srivastava
- Abstract要約: 上向き強化学習(UDRL)は、従来のRLの目的関数の戻り値の使用をひっくり返す。
UDRLは純粋に教師付き学習に基づいており、ブートストラップ、オフポリシー修正、割引係数といった、RLのいくつかの大きな問題を回避している。
- 参考スコア(独自算出の注目度): 0.5735035463793008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Upside down reinforcement learning (UDRL) flips the conventional use of the
return in the objective function in RL upside down, by taking returns as input
and predicting actions. UDRL is based purely on supervised learning, and
bypasses some prominent issues in RL: bootstrapping, off-policy corrections,
and discount factors. While previous work with UDRL demonstrated it in a
traditional online RL setting, here we show that this single algorithm can also
work in the imitation learning and offline RL settings, be extended to the
goal-conditioned RL setting, and even the meta-RL setting. With a general agent
architecture, a single UDRL agent can learn across all paradigms.
- Abstract(参考訳): アップサイドダウン強化学習(UDRL)は、リターンを入力として、予測アクションとして、リターンをRLの目的関数のリターンを逆転させる。
UDRLは純粋に教師付き学習に基づいており、ブートストラップ、オフポリシー修正、割引係数といった、RLの大きな問題を回避している。
UDRLによる以前の研究は、従来のオンラインRL設定で実証されていたが、ここでは、この単一のアルゴリズムが模倣学習やオフラインRL設定でも機能し、ゴール条件付きRL設定やメタRL設定まで拡張可能であることを示す。
汎用エージェントアーキテクチャでは、単一のUDRLエージェントがすべてのパラダイムにわたって学習することができる。
関連論文リスト
- Leveraging Reward Consistency for Interpretable Feature Discovery in
Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。
本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。
我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文 参考訳(メタデータ) (2023-09-04T09:09:54Z) - RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ [13.61250415783271]
従来のRLとメタRLを組み合わせた原則的ハイブリッドアプローチであるRL$3$を提案する。
RL$3$は、RL$2$と比較して、長い水平およびアウト・オブ・ディストリビューションのタスクに対してより累積的な報酬を得ることを示す。
論文 参考訳(メタデータ) (2023-06-28T04:16:16Z) - A Survey of Meta-Reinforcement Learning [83.95180398234238]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - Contrastive Learning as Goal-Conditioned Reinforcement Learning [147.28638631734486]
強化学習(RL)では,優れた表現が与えられると,課題の解決が容易になる。
ディープRLはこのような優れた表現を自動的に取得する必要があるが、事前の作業では、エンドツーエンドの方法での学習表現が不安定であることが多い。
比較的)表現学習法は,RLアルゴリズムとして自己にキャスト可能であることを示す。
論文 参考訳(メタデータ) (2022-06-15T14:34:15Z) - Beyond Tabula Rasa: Reincarnating Reinforcement Learning [37.201451908129386]
タブララ・ラサの学習は、事前の知識がなければ、強化学習(RL)研究における一般的なワークフローである。
我々は、RLエージェントの設計イテレーション間で事前の計算作業を再利用または転送するワークフローとして、RLを再導入する。
既存のアプローチはこの設定で失敗し、それらの制限に対処するための単純なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-03T15:11:10Z) - RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。
画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。
スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文 参考訳(メタデータ) (2021-06-04T03:08:43Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z) - EasyRL: A Simple and Extensible Reinforcement Learning Framework [3.2173369911280023]
EasyRLは、ユーザがRLエージェントをトレーニングし、評価するためのインタラクティブなグラフィカルユーザインターフェースを提供する。
EasyRLは、単純な組み込みRLエージェントのトレーニングとテストのためのプログラミング知識を必要としない。
EasyRLはカスタムRLエージェントと環境もサポートしており、RLモデルの評価と比較において、RL研究者にとって非常に有益である。
論文 参考訳(メタデータ) (2020-08-04T17:02:56Z) - Learning to Prune Deep Neural Networks via Reinforcement Learning [64.85939668308966]
PuRLは、ニューラルネットワークのプルーニングのためのディープ強化学習ベースのアルゴリズムである。
現在の最先端の手法に匹敵する幅と精度を実現している。
論文 参考訳(メタデータ) (2020-07-09T13:06:07Z) - MushroomRL: Simplifying Reinforcement Learning Research [60.70556446270147]
MushroomRLはオープンソースのPythonライブラリで、強化学習(RL)実験の実装と実行を簡単にするために開発された。
他の利用可能なライブラリと比較して、MushroomRLは、新しいRL方法論の実装とテストの労力を最小限に抑えるために、包括的で柔軟なフレームワークを提供することを目的として作られた。
論文 参考訳(メタデータ) (2020-01-04T17:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。