論文の概要: Benchmarking Constraint Inference in Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2206.09670v1
- Date: Mon, 20 Jun 2022 09:22:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-25 12:27:16.111306
- Title: Benchmarking Constraint Inference in Inverse Reinforcement Learning
- Title(参考訳): 逆強化学習におけるベンチマーク制約推論
- Authors: Guiliang Liu, Yudong Luo, Ashish Gaurav, Kasra Rezaee and Pascal
Poupart
- Abstract要約: 多くの実世界の問題において、専門家が従う制約は、RLエージェントに数学的に、未知に指定することがしばしば困難である。
本稿では,ロボット制御と自律運転という2つの主要なアプリケーション領域の文脈において,CIRLベンチマークを構築する。
CIRLアルゴリズムのパフォーマンスを再現するための情報を含むこのベンチマークは、https://github.com/Guiliang/CIRL-benchmarks-publicで公開されている。
- 参考スコア(独自算出の注目度): 19.314352936252444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When deploying Reinforcement Learning (RL) agents into a physical system, we
must ensure that these agents are well aware of the underlying constraints. In
many real-world problems, however, the constraints followed by expert agents
(e.g., humans) are often hard to specify mathematically and unknown to the RL
agents. To tackle these issues, Constraint Inverse Reinforcement Learning
(CIRL) considers the formalism of Constrained Markov Decision Processes (CMDPs)
and estimates constraints from expert demonstrations by learning a constraint
function. As an emerging research topic, CIRL does not have common benchmarks,
and previous works tested their algorithms with hand-crafted environments
(e.g., grid worlds). In this paper, we construct a CIRL benchmark in the
context of two major application domains: robot control and autonomous driving.
We design relevant constraints for each environment and empirically study the
ability of different algorithms to recover those constraints based on expert
trajectories that respect those constraints. To handle stochastic dynamics, we
propose a variational approach that infers constraint distributions, and we
demonstrate its performance by comparing it with other CIRL baselines on our
benchmark. The benchmark, including the information for reproducing the
performance of CIRL algorithms, is publicly available at
https://github.com/Guiliang/CIRL-benchmarks-public
- Abstract(参考訳): 強化学習(RL)エージェントを物理システムにデプロイする場合、これらのエージェントが基礎となる制約を十分に認識する必要がある。
しかし、現実の多くの問題では、専門家エージェント(例えば人間)が従う制約は、RLエージェントに数学的に、未知に指定することがしばしば困難である。
これらの問題に対処するために、制約逆強化学習(CIRL)は制約付きマルコフ決定過程(CMDP)の形式主義を考察し、制約関数を学習することで専門家による実証から制約を推定する。
新たな研究トピックとして、CIRLは一般的なベンチマークを持たず、以前の研究は手作りの環境(グリッドワールドなど)でアルゴリズムをテストした。
本稿では,ロボット制御と自律運転という2つの主要なアプリケーション領域の文脈において,CIRLベンチマークを構築する。
我々は,各環境に関連する制約を設計し,それらの制約を尊重する専門家の軌跡に基づいて,異なるアルゴリズムの制約を回復する能力について実証的に研究する。
確率力学を扱うために,制約分布を推定する変分法を提案し,その性能をベンチマーク上の他のCIRLベースラインと比較して示す。
CIRLアルゴリズムのパフォーマンスを再現するための情報を含むこのベンチマークは、https://github.com/Guiliang/CIRL-benchmarks-publicで公開されている。
関連論文リスト
- CaT: Constraints as Terminations for Legged Locomotion Reinforcement Learning [23.76366118253271]
現在の解決者は、厳しい制約を尊重する効率的なポリシーを作成できない。
本稿では,制約付きRLアルゴリズムCaTとしてConstraintsを提案する。
ビデオとコードはhttps://constraints-as-termminations.ioで公開されている。
論文 参考訳(メタデータ) (2024-03-27T17:03:31Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Benchmarking Actor-Critic Deep Reinforcement Learning Algorithms for
Robotics Control with Action Constraints [9.293472255463454]
本研究では,行動制約付き強化学習(RL)アルゴリズムの評価のためのベンチマークを提案する。
複数のロボット制御環境にまたがる既存のアルゴリズムとその新しい変種を評価する。
論文 参考訳(メタデータ) (2023-04-18T05:45:09Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Reinforcement Learning with Stepwise Fairness Constraints [50.538878453547966]
本稿では,段階的公正性制約を伴う強化学習について紹介する。
我々は、ポリシーの最適性と公正性違反に関して、強力な理論的保証を持つ学習アルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-11-08T04:06:23Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [52.85536740465277]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Constraint Sampling Reinforcement Learning: Incorporating Expertise For
Faster Learning [43.562783189118]
本稿では,人間の洞察を高速学習に組み込むための実践的アルゴリズムを提案する。
我々のアルゴリズムであるConstraint Sampling Reinforcement Learning (CSRL)は、事前のドメイン知識をRLポリシーの制約/制約として組み込む。
すべてのケースにおいて、CSRLはベースラインよりも早く良いポリシーを学ぶ。
論文 参考訳(メタデータ) (2021-12-30T22:02:42Z) - Deep RL With Information Constrained Policies: Generalization in
Continuous Control [21.46148507577606]
情報フローに対する自然な制約は, 連続制御タスクにおいて, 人工エージェントに干渉する可能性があることを示す。
CLAC(Capacity-Limited Actor-Critic)アルゴリズムを実装した。
実験の結果、CLACは代替手法と比較して、トレーニング環境と修正テスト環境の一般化に改善をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-10-09T15:42:21Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。