論文の概要: Learning Relative Return Policies With Upside-Down Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2202.12742v1
- Date: Wed, 23 Feb 2022 07:21:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 04:08:11.331874
- Title: Learning Relative Return Policies With Upside-Down Reinforcement
Learning
- Title(参考訳): 逆方向強化学習による相対的回帰政策の学習
- Authors: Dylan R. Ashley, Kai Arulkumaran, J\"urgen Schmidhuber, Rupesh Kumar
Srivastava
- Abstract要約: 逆さまの強化学習がオンラインでコマンドを実行することを学習できることを示します。
より複雑な命令構造の下で,この手法のパワーを実証し,実用化の道を開く。
- 参考スコア(独自算出の注目度): 2.596059386610301
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lately, there has been a resurgence of interest in using supervised learning
to solve reinforcement learning problems. Recent work in this area has largely
focused on learning command-conditioned policies. We investigate the potential
of one such method -- upside-down reinforcement learning -- to work with
commands that specify a desired relationship between some scalar value and the
observed return. We show that upside-down reinforcement learning can learn to
carry out such commands online in a tabular bandit setting and in CartPole with
non-linear function approximation. By doing so, we demonstrate the power of
this family of methods and open the way for their practical use under more
complicated command structures.
- Abstract(参考訳): 近年,強化学習問題を解決するための教師付き学習への関心が再燃している。
この領域における最近の研究は、主にコマンド条件ポリシーの学習に焦点を当てている。
本研究では、あるスカラー値と観測された戻り値との所望の関係を規定するコマンドを扱うための1つの方法(逆さまの強化学習)の可能性について検討する。
逆ダウン強化学習は,非線形関数近似を用いて表付きバンディット設定やCartPoleでそのようなコマンドをオンラインで実行することができることを示す。
そこで本研究では,この手法の威力を実証し,より複雑な命令構造の下での実用化に向けての道を開く。
関連論文リスト
- Inverse Reinforcement Learning from Non-Stationary Learning Agents [11.203097744443898]
本研究では,このエージェントが最適方針を学習している間に収集した軌跡データを用いて学習エージェントの報酬関数を学習する逆強化学習問題について検討する。
本稿では,学習者の政策パラメータを推定し,その報酬関数を推定する逆強化学習法を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:02:44Z) - Two-Step Offline Preference-Based Reinforcement Learning with Constrained Actions [38.48223545539604]
PRCと呼ばれる新しい2段階学習手法を開発した。
我々は,ロボット制御環境における各種データセットの学習効率を実証的に検証した。
論文 参考訳(メタデータ) (2023-12-30T21:37:18Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - The Difficulty of Passive Learning in Deep Reinforcement Learning [26.124032923011328]
アクティブな環境相互作用のない観測データから行動する学習は、強化学習(RL)の課題としてよく知られている。
最近のアプローチでは、学習したポリシーや保守的な更新に対する制約が伴い、データセットのステートアクション分布からの強い逸脱を防ぐ。
オフライン強化学習における困難を実証的に分析する「タンデム学習」実験パラダイムを提案する。
論文 参考訳(メタデータ) (2021-10-26T20:50:49Z) - Simplifying Deep Reinforcement Learning via Self-Supervision [51.2400839966489]
自己改善強化学習(Self-Supervised Reinforcement Learning, SSRL)は、純粋に監督された損失を伴うポリシーを最適化する単純なアルゴリズムである。
SSRLは、より安定した性能と実行時間の少ない現代アルゴリズムと驚くほど競合することを示す。
論文 参考訳(メタデータ) (2021-06-10T06:29:59Z) - Rethinking Supervised Learning and Reinforcement Learning in
Task-Oriented Dialogue Systems [58.724629408229205]
本稿では、従来の教師あり学習とシミュレータなしの逆学習法を用いて、最先端のRL法に匹敵する性能を実現する方法を示す。
我々の主な目的は、教師あり学習で強化学習に勝ることではなく、タスク指向対話システムの最適化における強化学習と教師あり学習の役割を再考する価値を示すことである。
論文 参考訳(メタデータ) (2020-09-21T12:04:18Z) - Transfer Learning in Deep Reinforcement Learning: A Survey [64.36174156782333]
強化学習は、シーケンシャルな意思決定問題を解決するための学習パラダイムである。
近年、ディープニューラルネットワークの急速な発展により、強化学習の顕著な進歩が見られた。
転校学習は 強化学習が直面する様々な課題に 対処するために生まれました
論文 参考訳(メタデータ) (2020-09-16T18:38:54Z) - A Conceptual Framework for Externally-influenced Agents: An Assisted
Reinforcement Learning Review [10.73121872355072]
支援強化学習のための概念的枠組みと分類法を提案する。
提案する分類法は,外部情報ソースと学習者エージェントの関係を詳細に記述する。
エージェントの性能向上のために外部情報を用いた強化学習の現在の流れを同定する。
論文 参考訳(メタデータ) (2020-07-03T08:07:31Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。