Fugu-MT 論文翻訳(概要): Computationally Efficient Reinforcement Learning: Targeted Exploration leveraging Simple Rules

論文の概要: Computationally Efficient Reinforcement Learning: Targeted Exploration leveraging Simple Rules

arxiv url: http://arxiv.org/abs/2211.16691v3
Date: Tue, 12 Sep 2023 09:39:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-13 17:51:21.416660
Title: Computationally Efficient Reinforcement Learning: Targeted Exploration leveraging Simple Rules
Title（参考訳）: 計算効率の良い強化学習:簡単なルールを活かした探索
Authors: Loris Di Natale, Bratislav Svetozarevic, Philipp Heer, and Colin N. Jones
Abstract要約: 本稿では,このようなルールを組み込むための,連続的アクター批判フレームワークの簡易かつ効果的な修正を提案する。室内温度制御のケーススタディでは、エージェントは古典的なエージェントよりも最大6～7倍の速さで優れたポリシーに収束することができる。
参考スコア（独自算出の注目度）: 1.124958340749622
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Model-free Reinforcement Learning (RL) generally suffers from poor sample complexity, mostly due to the need to exhaustively explore the state-action space to find well-performing policies. On the other hand, we postulate that expert knowledge of the system often allows us to design simple rules we expect good policies to follow at all times. In this work, we hence propose a simple yet effective modification of continuous actor-critic frameworks to incorporate such rules and avoid regions of the state-action space that are known to be suboptimal, thereby significantly accelerating the convergence of RL agents. Concretely, we saturate the actions chosen by the agent if they do not comply with our intuition and, critically, modify the gradient update step of the policy to ensure the learning process is not affected by the saturation step. On a room temperature control case study, it allows agents to converge to well-performing policies up to 6-7x faster than classical agents without computational overhead and while retaining good final performance.
Abstract（参考訳）: モデルフリー強化学習(RL)は、一般的にサンプルの複雑さに悩まされる。一方で、システムの専門家の知識によって、良いポリシーが常に従うことを期待するシンプルなルールを設計することがしばしば可能になると仮定します。そこで本研究では,このようなルールを組み込んだ連続的アクター・クリティカル・フレームワークの簡易かつ効果的な修正を提案し,RLエージェントの収束を著しく促進する状態-アクション空間の領域を回避する。具体的には、エージェントが直感に従わない場合、エージェントが選択したアクションを飽和させ、重要なことは、学習プロセスが飽和ステップの影響を受けないようにポリシーの勾配更新ステップを変更することである。室内温度制御のケーススタディでは、計算オーバーヘッドを伴わず、良好な最終性能を維持しながら、従来のエージェントよりも最大6～7倍の性能のポリシーに収束することができる。

関連論文リスト

Diffusion Guidance Is a Controllable Policy Improvement Operator [98.11511661904618]
CFGRLは教師付き学習の単純さで訓練されているが、データ内のポリシーをさらに改善することができる。オフラインのRLタスクでは、信頼性の高いトレンドが観察されます -- ガイダンスの重み付けの増加によって、パフォーマンスが向上します。
論文参考訳（メタデータ） (2025-05-29T14:06:50Z)
Fast Adaptation with Behavioral Foundation Models [82.34700481726951]
教師なしゼロショット強化学習は、行動基礎モデルの事前学習のための強力なパラダイムとして登場した。有望な結果にもかかわらず、ゼロショットポリシーは、教師なしのトレーニングプロセスによって引き起こされるエラーにより、しばしば準最適である。本稿では,事前訓練されたBFMの低次元タスク埋め込み空間を探索し,ゼロショットポリシーの性能を急速に向上させる高速適応手法を提案する。
論文参考訳（メタデータ） (2025-04-10T16:14:17Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
Overestimation, Overfitting, and Plasticity in Actor-Critic: the Bitter Lesson of Reinforcement Learning [1.0762853848552156]
我々は60以上の異なる非政治エージェントを実装し、それぞれが最新の最先端アルゴリズムから確立された正規化技術を統合する。これらのエージェントは,2つのシミュレーションベンチマークから,過大評価,過度適合,可塑性損失に関連するトレーニング指標を測定した。ソフトアクター・クライブエージェントは、適切に正規化され、トレーニング体制内でより優れたパフォーマンスのポリシーを確実に見つける。
論文参考訳（メタデータ） (2024-03-01T13:25:10Z)
Deployable Reinforcement Learning with Variable Control Rate [14.838483990647697]
可変制御率を持つ強化学習(RL)の変種を提案する。このアプローチでは、ポリシーは、エージェントが取るべきアクションと、そのアクションに関連する時間ステップの期間を決定する。ニュートンキネマティクスを用いたエージェントを駆動する概念実証シミュレーションによりSEACの有効性を示す。
論文参考訳（メタデータ） (2024-01-17T15:40:11Z)
Time-Efficient Reinforcement Learning with Stochastic Stateful Policies [20.545058017790428]
我々は,ステートフルな政策を,後者をグラデーションな内部状態カーネルとステートレスなポリシーに分解して訓練するための新しいアプローチを提案する。我々は、ステートフルなポリシー勾配定理の異なるバージョンを導入し、一般的な強化学習アルゴリズムのステートフルな変種を簡単にインスタンス化できるようにする。
論文参考訳（メタデータ） (2023-11-07T15:48:07Z)
Iteratively Refined Behavior Regularization for Offline Reinforcement Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。 D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2023-06-09T07:46:24Z)
Inapplicable Actions Learning for Knowledge Transfer in Reinforcement Learning [3.194414753332705]
学習不能な動作はRLアルゴリズムのサンプル効率を大幅に向上させることを示す。得られた知識の伝達性のおかげで、学習プロセスをより効率的にするために、他のタスクやドメインで再利用することができる。
論文参考訳（メタデータ） (2022-11-28T17:45:39Z)
Imitating, Fast and Slow: Robust learning from demonstrations via decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。 IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-04-07T17:16:52Z)
Addressing Action Oscillations through Learning Policy Inertia [26.171039226334504]
Policy Inertia Controller (PIC) は、既製のDRLアルゴリズムの汎用的なプラグインフレームワークとして機能する。 PIC強化政策の一般的なトレーニングアルゴリズムとしてNested Policy Iterationを提案する。 DRLアルゴリズム、すなわちNested Soft Actor-Criticを導出する。
論文参考訳（メタデータ） (2021-03-03T09:59:43Z)
DDPG++: Striving for Simplicity in Continuous-control Off-Policy Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文参考訳（メタデータ） (2020-06-26T20:21:12Z)
Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。実演なしで指導的学習を通じて効果的な政策を学べるか? 政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文参考訳（メタデータ） (2019-12-31T18:07:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。