論文の概要: Open the Black Box: Step-based Policy Updates for Temporally-Correlated
Episodic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2401.11437v1
- Date: Sun, 21 Jan 2024 09:24:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 16:36:32.668110
- Title: Open the Black Box: Step-based Policy Updates for Temporally-Correlated
Episodic Reinforcement Learning
- Title(参考訳): ブラックボックスのオープン:段階的政策更新によるテンポラル・コーディック強化学習
- Authors: Ge Li, Hongyi Zhou, Dominik Roth, Serge Thilges, Fabian Otto, Rudolf
Lioutikov, Gerhard Neumann
- Abstract要約: 本稿では,新たなERLアルゴリズムであるTemporally-Correlated Episodic RL(TCE)を導入する。
TCEは最近のERL手法に匹敵する性能を保ちながら、最先端(SoTA)ステップベースのRLのようなデータ効率を維持している。
- 参考スコア(独自算出の注目度): 26.344135827307113
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Current advancements in reinforcement learning (RL) have predominantly
focused on learning step-based policies that generate actions for each
perceived state. While these methods efficiently leverage step information from
environmental interaction, they often ignore the temporal correlation between
actions, resulting in inefficient exploration and unsmooth trajectories that
are challenging to implement on real hardware. Episodic RL (ERL) seeks to
overcome these challenges by exploring in parameters space that capture the
correlation of actions. However, these approaches typically compromise data
efficiency, as they treat trajectories as opaque \emph{black boxes}. In this
work, we introduce a novel ERL algorithm, Temporally-Correlated Episodic RL
(TCE), which effectively utilizes step information in episodic policy updates,
opening the 'black box' in existing ERL methods while retaining the smooth and
consistent exploration in parameter space. TCE synergistically combines the
advantages of step-based and episodic RL, achieving comparable performance to
recent ERL methods while maintaining data efficiency akin to state-of-the-art
(SoTA) step-based RL.
- Abstract(参考訳): 強化学習(RL)の最近の進歩は、認識された各状態に対するアクションを生成するステップベースの政策の学習に主に焦点を当てている。
これらの手法は、環境相互作用からのステップ情報を有効に活用するが、しばしば行動間の時間的相関を無視し、実際のハードウェアで実装するのが難しい非効率的な探索と不機嫌な軌跡をもたらす。
エピソードRL(ERL)は、アクションの相関を捉えるパラメータ空間を探索することで、これらの課題を克服しようとしている。
しかし、これらのアプローチは、通常、軌道を不透明な \emph{black box} として扱うため、データ効率を損なう。
本研究では,新たなERLアルゴリズムであるTemporally-Correlated Episodic RL (TCE)を導入し,パラメータ空間におけるスムーズかつ一貫した探索を維持しつつ,既存のERL手法の「ブラックボックス」を開放する。
TCEは、ステップベースとエピソードRLの利点を相乗的に組み合わせ、最近のERL法に匹敵する性能を達成しつつ、最先端(SoTA)ステップベースRLのようなデータ効率を維持する。
関連論文リスト
- TOP-ERL: Transformer-based Off-Policy Episodic Reinforcement Learning [27.93845816476777]
本研究はトランスフォーマーに基づくオフポリシック・エピソード強化学習(TOP-ERL)を紹介する。
TOP-ERLは、ERLフレームワークの非政治的更新を可能にする新しいアルゴリズムである。
論文 参考訳(メタデータ) (2024-10-12T13:55:26Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - CCE: Sample Efficient Sparse Reward Policy Learning for Robotic Navigation via Confidence-Controlled Exploration [72.24964965882783]
CCE (Confidence-Controlled Exploration) は、ロボットナビゲーションのようなスパース報酬設定のための強化学習アルゴリズムのトレーニングサンプル効率を高めるために設計された。
CCEは、勾配推定と政策エントロピーの間の新しい関係に基づいている。
我々は、CCEが一定軌跡長とエントロピー正規化を用いる従来の手法より優れるシミュレーションおよび実世界の実験を通して実証する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - Bridging the Gap Between Offline and Online Reinforcement Learning
Evaluation Methodologies [6.303272140868826]
強化学習(Reinforcement Learning, RL)は、大規模な状態と行動空間を持つ環境で学習するアルゴリズムに対して、非常に有望であることを示す。
現在の深層RLアルゴリズムは、学習に膨大な量の環境相互作用を必要とする。
オフラインのRLアルゴリズムは、既存のログデータから学習プロセスをブートストラップすることでこの問題に対処しようとする。
論文 参考訳(メタデータ) (2022-12-15T20:36:10Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。