Fugu-MT 論文翻訳(概要): Efficient Reinforcement Learning (ERL): Targeted Exploration Through Action Saturation

論文の概要: Efficient Reinforcement Learning (ERL): Targeted Exploration Through Action Saturation

arxiv url: http://arxiv.org/abs/2211.16691v1
Date: Wed, 30 Nov 2022 02:24:42 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-01 15:45:00.693256
Title: Efficient Reinforcement Learning (ERL): Targeted Exploration Through Action Saturation
Title（参考訳）: 効率的な強化学習(ERL) : 行動飽和による探索を目標に
Authors: Loris Di Natale, Bratislav Svetozarevic, Philipp Heer, and Colin N. Jones
Abstract要約: 本稿では,学習方針に事前知識を組み込むために,連続的なアクタ批判的RLフレームワークの修正を提案する。我々は、学習プロセスが飽和ステップに支障を来さないよう、ポリシーの勾配更新ステップを変更した。これらの修飾により、エージェントは古典的なRLエージェントよりも1桁早く、優れた性能のポリシーに収束することができる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement Learning (RL) generally suffers from poor sample complexity, mostly due to the need to exhaustively explore the state space to find good policies. On the other hand, we postulate that expert knowledge of the system to control often allows us to design simple rules we expect good policies to follow at all times. In this work, we hence propose a simple yet effective modification of continuous actor-critic RL frameworks to incorporate such prior knowledge in the learned policies and constrain them to regions of the state space that are deemed interesting, thereby significantly accelerating their convergence. Concretely, we saturate the actions chosen by the agent if they do not comply with our intuition and, critically, modify the gradient update step of the policy to ensure the learning process does not suffer from the saturation step. On a room temperature control simulation case study, these modifications allow agents to converge to well-performing policies up to one order of magnitude faster than classical RL agents while retaining good final performance.
Abstract（参考訳）: 強化学習(Reinforcement Learning, RL)は一般的にサンプルの複雑さに悩まされる。一方で、制御するシステムの専門家の知識によって、良いポリシーが常に従うことを期待するシンプルなルールを設計することがしばしば可能になると仮定します。そこで本研究では,このような知識を学習方針に組み込んで,興味のある状態空間の領域に限定し,それらの収束を著しく促進する,連続的アクタクリティカルなRLフレームワークの簡易かつ効果的な修正を提案する。具体的には、エージェントが私たちの直感に従わなければ、エージェントが選択したアクションを飽和させ、批判的に、学習プロセスが飽和ステップに支障を来さないようにポリシーの勾配更新ステップを変更します。室内温度制御シミュレーションケーススタディでは、これらの変更により、エージェントは優れた最終性能を維持しながら、古典的なRLエージェントよりも1桁早く、優れた性能のポリシーに収束することができる。

関連論文リスト

Diffusion Guidance Is a Controllable Policy Improvement Operator [98.11511661904618]
CFGRLは教師付き学習の単純さで訓練されているが、データ内のポリシーをさらに改善することができる。オフラインのRLタスクでは、信頼性の高いトレンドが観察されます -- ガイダンスの重み付けの増加によって、パフォーマンスが向上します。
論文参考訳（メタデータ） (2025-05-29T14:06:50Z)
Fast Adaptation with Behavioral Foundation Models [82.34700481726951]
教師なしゼロショット強化学習は、行動基礎モデルの事前学習のための強力なパラダイムとして登場した。有望な結果にもかかわらず、ゼロショットポリシーは、教師なしのトレーニングプロセスによって引き起こされるエラーにより、しばしば準最適である。本稿では,事前訓練されたBFMの低次元タスク埋め込み空間を探索し,ゼロショットポリシーの性能を急速に向上させる高速適応手法を提案する。
論文参考訳（メタデータ） (2025-04-10T16:14:17Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
Overestimation, Overfitting, and Plasticity in Actor-Critic: the Bitter Lesson of Reinforcement Learning [1.0762853848552156]
我々は60以上の異なる非政治エージェントを実装し、それぞれが最新の最先端アルゴリズムから確立された正規化技術を統合する。これらのエージェントは,2つのシミュレーションベンチマークから,過大評価,過度適合,可塑性損失に関連するトレーニング指標を測定した。ソフトアクター・クライブエージェントは、適切に正規化され、トレーニング体制内でより優れたパフォーマンスのポリシーを確実に見つける。
論文参考訳（メタデータ） (2024-03-01T13:25:10Z)
Deployable Reinforcement Learning with Variable Control Rate [14.838483990647697]
可変制御率を持つ強化学習(RL)の変種を提案する。このアプローチでは、ポリシーは、エージェントが取るべきアクションと、そのアクションに関連する時間ステップの期間を決定する。ニュートンキネマティクスを用いたエージェントを駆動する概念実証シミュレーションによりSEACの有効性を示す。
論文参考訳（メタデータ） (2024-01-17T15:40:11Z)
Time-Efficient Reinforcement Learning with Stochastic Stateful Policies [20.545058017790428]
我々は,ステートフルな政策を,後者をグラデーションな内部状態カーネルとステートレスなポリシーに分解して訓練するための新しいアプローチを提案する。我々は、ステートフルなポリシー勾配定理の異なるバージョンを導入し、一般的な強化学習アルゴリズムのステートフルな変種を簡単にインスタンス化できるようにする。
論文参考訳（メタデータ） (2023-11-07T15:48:07Z)
Iteratively Refined Behavior Regularization for Offline Reinforcement Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。 D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2023-06-09T07:46:24Z)
Inapplicable Actions Learning for Knowledge Transfer in Reinforcement Learning [3.194414753332705]
学習不能な動作はRLアルゴリズムのサンプル効率を大幅に向上させることを示す。得られた知識の伝達性のおかげで、学習プロセスをより効率的にするために、他のタスクやドメインで再利用することができる。
論文参考訳（メタデータ） (2022-11-28T17:45:39Z)
Imitating, Fast and Slow: Robust learning from demonstrations via decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。 IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-04-07T17:16:52Z)
Addressing Action Oscillations through Learning Policy Inertia [26.171039226334504]
Policy Inertia Controller (PIC) は、既製のDRLアルゴリズムの汎用的なプラグインフレームワークとして機能する。 PIC強化政策の一般的なトレーニングアルゴリズムとしてNested Policy Iterationを提案する。 DRLアルゴリズム、すなわちNested Soft Actor-Criticを導出する。
論文参考訳（メタデータ） (2021-03-03T09:59:43Z)
DDPG++: Striving for Simplicity in Continuous-control Off-Policy Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文参考訳（メタデータ） (2020-06-26T20:21:12Z)
Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。実演なしで指導的学習を通じて効果的な政策を学べるか? 政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文参考訳（メタデータ） (2019-12-31T18:07:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。