論文の概要: Benchmarking Actor-Critic Deep Reinforcement Learning Algorithms for
Robotics Control with Action Constraints
- arxiv url: http://arxiv.org/abs/2304.08743v1
- Date: Tue, 18 Apr 2023 05:45:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 15:53:03.099987
- Title: Benchmarking Actor-Critic Deep Reinforcement Learning Algorithms for
Robotics Control with Action Constraints
- Title(参考訳): 行動制約付きロボット制御のためのアクタ-クリティック深層強化学習アルゴリズムのベンチマーク
- Authors: Kazumi Kasaura, Shuwa Miura, Tadashi Kozuno, Ryo Yonetani, Kenta
Hoshino, Yohei Hosoe
- Abstract要約: 本研究では,行動制約付き強化学習(RL)アルゴリズムの評価のためのベンチマークを提案する。
複数のロボット制御環境にまたがる既存のアルゴリズムとその新しい変種を評価する。
- 参考スコア(独自算出の注目度): 9.293472255463454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study presents a benchmark for evaluating action-constrained
reinforcement learning (RL) algorithms. In action-constrained RL, each action
taken by the learning system must comply with certain constraints. These
constraints are crucial for ensuring the feasibility and safety of actions in
real-world systems. We evaluate existing algorithms and their novel variants
across multiple robotics control environments, encompassing multiple action
constraint types. Our evaluation provides the first in-depth perspective of the
field, revealing surprising insights, including the effectiveness of a
straightforward baseline approach. The benchmark problems and associated code
utilized in our experiments are made available online at
github.com/omron-sinicx/action-constrained-RL-benchmark for further research
and development.
- Abstract(参考訳): 本研究では,行動制約付き強化学習(RL)アルゴリズムの評価のためのベンチマークを提案する。
行動制約付きRLでは、学習システムによって取られた各アクションは、一定の制約に従わなければならない。
これらの制約は、実世界のシステムにおけるアクションの実行可能性と安全性を確保するために不可欠である。
複数の動作制約型を含む複数のロボット制御環境にまたがる既存のアルゴリズムとその新しい変種を評価する。
我々の評価は、直感的なベースラインアプローチの有効性を含む驚くべき洞察を、この分野における最初の深い視点を提供する。
ベンチマーク問題と関連するコードはgithub.com/omron-sinicx/action-constrained-rl-benchmarkでさらなる研究と開発のために公開されている。
関連論文リスト
- Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。
提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Reinforcement Learning with Stepwise Fairness Constraints [50.538878453547966]
本稿では,段階的公正性制約を伴う強化学習について紹介する。
我々は、ポリシーの最適性と公正性違反に関して、強力な理論的保証を持つ学習アルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-11-08T04:06:23Z) - Ensemble Reinforcement Learning in Continuous Spaces -- A Hierarchical
Multi-Step Approach for Policy Training [4.982806898121435]
本稿では,革新的な多段階統合手法に基づいて,基礎学習者のアンサンブルを訓練する手法を提案する。
本手法は,学習者間コラボレーションを効果的に促進するアンサンブルDRLのための新しい階層学習アルゴリズムの開発を可能にする。
また、このアルゴリズムは複数のベンチマークRL問題に対していくつかの最先端のDRLアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-09-29T00:42:44Z) - Benchmarking Constraint Inference in Inverse Reinforcement Learning [19.314352936252444]
多くの実世界の問題において、専門家が従う制約は、RLエージェントに数学的に、未知に指定することがしばしば困難である。
本稿では,ロボット制御と自律運転という2つの主要なアプリケーション領域の文脈において,CIRLベンチマークを構築する。
CIRLアルゴリズムのパフォーマンスを再現するための情報を含むこのベンチマークは、https://github.com/Guiliang/CIRL-benchmarks-publicで公開されている。
論文 参考訳(メタデータ) (2022-06-20T09:22:20Z) - Escaping from Zero Gradient: Revisiting Action-Constrained Reinforcement
Learning via Frank-Wolfe Policy Optimization [5.072893872296332]
アクション制約強化学習(RL)は、さまざまな現実世界のアプリケーションで広く使用されているアプローチです。
本稿では,政策パラメータ更新から行動制約を分離する学習アルゴリズムを提案する。
提案アルゴリズムは,様々な制御タスクにおけるベンチマーク手法を有意に上回っていることを示した。
論文 参考訳(メタデータ) (2021-02-22T14:28:03Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。