論文の概要: Efficient Reinforcement Learning (ERL): Targeted Exploration Through
Action Saturation
- arxiv url: http://arxiv.org/abs/2211.16691v1
- Date: Wed, 30 Nov 2022 02:24:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 15:45:00.693256
- Title: Efficient Reinforcement Learning (ERL): Targeted Exploration Through
Action Saturation
- Title(参考訳): 効率的な強化学習(ERL) : 行動飽和による探索を目標に
- Authors: Loris Di Natale, Bratislav Svetozarevic, Philipp Heer, and Colin N.
Jones
- Abstract要約: 本稿では,学習方針に事前知識を組み込むために,連続的なアクタ批判的RLフレームワークの修正を提案する。
我々は、学習プロセスが飽和ステップに支障を来さないよう、ポリシーの勾配更新ステップを変更した。
これらの修飾により、エージェントは古典的なRLエージェントよりも1桁早く、優れた性能のポリシーに収束することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) generally suffers from poor sample complexity,
mostly due to the need to exhaustively explore the state space to find good
policies. On the other hand, we postulate that expert knowledge of the system
to control often allows us to design simple rules we expect good policies to
follow at all times. In this work, we hence propose a simple yet effective
modification of continuous actor-critic RL frameworks to incorporate such prior
knowledge in the learned policies and constrain them to regions of the state
space that are deemed interesting, thereby significantly accelerating their
convergence. Concretely, we saturate the actions chosen by the agent if they do
not comply with our intuition and, critically, modify the gradient update step
of the policy to ensure the learning process does not suffer from the
saturation step. On a room temperature control simulation case study, these
modifications allow agents to converge to well-performing policies up to one
order of magnitude faster than classical RL agents while retaining good final
performance.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は一般的にサンプルの複雑さに悩まされる。
一方で、制御するシステムの専門家の知識によって、良いポリシーが常に従うことを期待するシンプルなルールを設計することがしばしば可能になると仮定します。
そこで本研究では,このような知識を学習方針に組み込んで,興味のある状態空間の領域に限定し,それらの収束を著しく促進する,連続的アクタクリティカルなRLフレームワークの簡易かつ効果的な修正を提案する。
具体的には、エージェントが私たちの直感に従わなければ、エージェントが選択したアクションを飽和させ、批判的に、学習プロセスが飽和ステップに支障を来さないようにポリシーの勾配更新ステップを変更します。
室内温度制御シミュレーションケーススタディでは、これらの変更により、エージェントは優れた最終性能を維持しながら、古典的なRLエージェントよりも1桁早く、優れた性能のポリシーに収束することができる。
関連論文リスト
- Deployable Reinforcement Learning with Variable Control Rate [17.529703157304887]
可変制御率を持つ強化学習(RL)の変種を提案する。
このアプローチでは、ポリシーは、エージェントが取るべきアクションと、そのアクションに関連する時間ステップの期間を決定する。
ニュートンキネマティクスを用いたエージェントを駆動する概念実証シミュレーションによりSEACの有効性を示す。
論文 参考訳(メタデータ) (2024-01-17T15:40:11Z) - Time-Efficient Reinforcement Learning with Stochastic Stateful Policies [20.545058017790428]
我々は,ステートフルな政策を,後者をグラデーションな内部状態カーネルとステートレスなポリシーに分解して訓練するための新しいアプローチを提案する。
我々は、ステートフルなポリシー勾配定理の異なるバージョンを導入し、一般的な強化学習アルゴリズムのステートフルな変種を簡単にインスタンス化できるようにする。
論文 参考訳(メタデータ) (2023-11-07T15:48:07Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Inapplicable Actions Learning for Knowledge Transfer in Reinforcement
Learning [3.194414753332705]
学習不能な動作はRLアルゴリズムのサンプル効率を大幅に向上させることを示す。
得られた知識の伝達性のおかげで、学習プロセスをより効率的にするために、他のタスクやドメインで再利用することができる。
論文 参考訳(メタデータ) (2022-11-28T17:45:39Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Off-Policy Reinforcement Learning with Delayed Rewards [16.914712720033524]
多くの現実世界のタスクでは、エージェントがアクションを実行した直後に即時報酬がアクセスできない、あるいは定義できない。
本稿では、まず、遅延報酬を伴う環境を正式に定義し、このような環境の非マルコフ的な性質から生じる課題について議論する。
理論収束保証を伴う遅延報酬を処理できる新しいQ-関数の定式化を備えた一般の政治外RLフレームワークを導入する。
論文 参考訳(メタデータ) (2021-06-22T15:19:48Z) - Addressing Action Oscillations through Learning Policy Inertia [26.171039226334504]
Policy Inertia Controller (PIC) は、既製のDRLアルゴリズムの汎用的なプラグインフレームワークとして機能する。
PIC強化政策の一般的なトレーニングアルゴリズムとしてNested Policy Iterationを提案する。
DRLアルゴリズム、すなわちNested Soft Actor-Criticを導出する。
論文 参考訳(メタデータ) (2021-03-03T09:59:43Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy
Gradients [93.65993173260318]
報酬を最大化するポリシーを訓練し、そのアクションを通じて特定の機密状態変数の開示を最小化するタスクを考える。
この設定は、シーケンシャルな意思決定のためのプライバシーにおける現実世界の問題をどのようにカバーするかを例に示します。
実験の結果,本手法は敏感な状態を隠蔽する方針が得られた。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。