論文の概要: Efficient Reinforcement Learning (ERL): Targeted Exploration Through
Action Saturation
- arxiv url: http://arxiv.org/abs/2211.16691v1
- Date: Wed, 30 Nov 2022 02:24:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 15:45:00.693256
- Title: Efficient Reinforcement Learning (ERL): Targeted Exploration Through
Action Saturation
- Title(参考訳): 効率的な強化学習(ERL) : 行動飽和による探索を目標に
- Authors: Loris Di Natale, Bratislav Svetozarevic, Philipp Heer, and Colin N.
Jones
- Abstract要約: 本稿では,学習方針に事前知識を組み込むために,連続的なアクタ批判的RLフレームワークの修正を提案する。
我々は、学習プロセスが飽和ステップに支障を来さないよう、ポリシーの勾配更新ステップを変更した。
これらの修飾により、エージェントは古典的なRLエージェントよりも1桁早く、優れた性能のポリシーに収束することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) generally suffers from poor sample complexity,
mostly due to the need to exhaustively explore the state space to find good
policies. On the other hand, we postulate that expert knowledge of the system
to control often allows us to design simple rules we expect good policies to
follow at all times. In this work, we hence propose a simple yet effective
modification of continuous actor-critic RL frameworks to incorporate such prior
knowledge in the learned policies and constrain them to regions of the state
space that are deemed interesting, thereby significantly accelerating their
convergence. Concretely, we saturate the actions chosen by the agent if they do
not comply with our intuition and, critically, modify the gradient update step
of the policy to ensure the learning process does not suffer from the
saturation step. On a room temperature control simulation case study, these
modifications allow agents to converge to well-performing policies up to one
order of magnitude faster than classical RL agents while retaining good final
performance.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は一般的にサンプルの複雑さに悩まされる。
一方で、制御するシステムの専門家の知識によって、良いポリシーが常に従うことを期待するシンプルなルールを設計することがしばしば可能になると仮定します。
そこで本研究では,このような知識を学習方針に組み込んで,興味のある状態空間の領域に限定し,それらの収束を著しく促進する,連続的アクタクリティカルなRLフレームワークの簡易かつ効果的な修正を提案する。
具体的には、エージェントが私たちの直感に従わなければ、エージェントが選択したアクションを飽和させ、批判的に、学習プロセスが飽和ステップに支障を来さないようにポリシーの勾配更新ステップを変更します。
室内温度制御シミュレーションケーススタディでは、これらの変更により、エージェントは優れた最終性能を維持しながら、古典的なRLエージェントよりも1桁早く、優れた性能のポリシーに収束することができる。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Overestimation, Overfitting, and Plasticity in Actor-Critic: the Bitter Lesson of Reinforcement Learning [1.0762853848552156]
我々は60以上の異なる非政治エージェントを実装し、それぞれが最新の最先端アルゴリズムから確立された正規化技術を統合する。
これらのエージェントは,2つのシミュレーションベンチマークから,過大評価,過度適合,可塑性損失に関連するトレーニング指標を測定した。
ソフトアクター・クライブエージェントは、適切に正規化され、トレーニング体制内でより優れたパフォーマンスのポリシーを確実に見つける。
論文 参考訳(メタデータ) (2024-03-01T13:25:10Z) - Deployable Reinforcement Learning with Variable Control Rate [14.838483990647697]
可変制御率を持つ強化学習(RL)の変種を提案する。
このアプローチでは、ポリシーは、エージェントが取るべきアクションと、そのアクションに関連する時間ステップの期間を決定する。
ニュートンキネマティクスを用いたエージェントを駆動する概念実証シミュレーションによりSEACの有効性を示す。
論文 参考訳(メタデータ) (2024-01-17T15:40:11Z) - Time-Efficient Reinforcement Learning with Stochastic Stateful Policies [20.545058017790428]
我々は,ステートフルな政策を,後者をグラデーションな内部状態カーネルとステートレスなポリシーに分解して訓練するための新しいアプローチを提案する。
我々は、ステートフルなポリシー勾配定理の異なるバージョンを導入し、一般的な強化学習アルゴリズムのステートフルな変種を簡単にインスタンス化できるようにする。
論文 参考訳(メタデータ) (2023-11-07T15:48:07Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Inapplicable Actions Learning for Knowledge Transfer in Reinforcement
Learning [3.194414753332705]
学習不能な動作はRLアルゴリズムのサンプル効率を大幅に向上させることを示す。
得られた知識の伝達性のおかげで、学習プロセスをより効率的にするために、他のタスクやドメインで再利用することができる。
論文 参考訳(メタデータ) (2022-11-28T17:45:39Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Addressing Action Oscillations through Learning Policy Inertia [26.171039226334504]
Policy Inertia Controller (PIC) は、既製のDRLアルゴリズムの汎用的なプラグインフレームワークとして機能する。
PIC強化政策の一般的なトレーニングアルゴリズムとしてNested Policy Iterationを提案する。
DRLアルゴリズム、すなわちNested Soft Actor-Criticを導出する。
論文 参考訳(メタデータ) (2021-03-03T09:59:43Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。