論文の概要: Maximum Causal Entropy Inverse Constrained Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.02857v1
- Date: Thu, 4 May 2023 14:18:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 15:24:33.659588
- Title: Maximum Causal Entropy Inverse Constrained Reinforcement Learning
- Title(参考訳): 最大因果エントロピー逆制約強化学習
- Authors: Mattijs Baert, Pietro Mazzaglia, Sam Leroux, Pieter Simoens
- Abstract要約: 本稿では,最大因果エントロピーの原理を用いて制約と最適ポリシーを学習する手法を提案する。
得られた報酬と制約違反数を評価することで,学習方針の有効性を評価する。
本手法は様々なタスクや環境にまたがって最先端の手法より優れていることが示されている。
- 参考スコア(独自算出の注目度): 3.409089945290584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When deploying artificial agents in real-world environments where they
interact with humans, it is crucial that their behavior is aligned with the
values, social norms or other requirements of that environment. However, many
environments have implicit constraints that are difficult to specify and
transfer to a learning agent. To address this challenge, we propose a novel
method that utilizes the principle of maximum causal entropy to learn
constraints and an optimal policy that adheres to these constraints, using
demonstrations of agents that abide by the constraints. We prove convergence in
a tabular setting and provide an approximation which scales to complex
environments. We evaluate the effectiveness of the learned policy by assessing
the reward received and the number of constraint violations, and we evaluate
the learned cost function based on its transferability to other agents. Our
method has been shown to outperform state-of-the-art approaches across a
variety of tasks and environments, and it is able to handle problems with
stochastic dynamics and a continuous state-action space.
- Abstract(参考訳): 人間と相互作用する現実世界の環境に人工エージェントを配置する場合、それらの行動は、その環境の価値観、社会的規範、その他の要件と一致していることが重要である。
しかし、多くの環境には暗黙の制約があり、学習エージェントに指定や転送が困難である。
この課題に対処するために,制約を学習するための最大因果エントロピーの原理と,制約に従属するエージェントのデモンストレーションを用いて,制約に従属する最適なポリシーを利用する手法を提案する。
表の設定における収束を証明し、複雑な環境にスケールする近似を与える。
我々は,受給した報酬と制約違反の数を評価することで,学習方針の有効性を評価し,学習コスト関数を他のエージェントへの転送性に基づいて評価する。
提案手法は,様々なタスクや環境にまたがる最先端のアプローチよりも優れており,確率的ダイナミクスと連続的な状態動作空間で問題に対処することができる。
関連論文リスト
- HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Constrained Meta-Reinforcement Learning for Adaptable Safety Guarantee
with Differentiable Convex Programming [4.825619788907192]
本稿では,メタラーニングアプローチ(ラーニング・トゥ・ラーン)のレンズを通して制約された問題を解くことによって,非定常環境における安全性を確保するためのユニークな課題について考察する。
まず,複数タスクにまたがるコンベックス制約付きポリシー更新を連続的に採用し,エンドツーエンドの差別化を可能にすることで,制約のあるシナリオにおけるメタラーニングを可能にする。
論文 参考訳(メタデータ) (2023-12-15T21:55:43Z) - Risk-Aware Continuous Control with Neural Contextual Bandits [8.911816419902427]
本稿では,コンテキスト的盗聴問題に対するリスク認識型意思決定フレームワークを提案する。
私たちのフレームワークは、さまざまなリスクレベルに対応し、パフォーマンスに対する制約満足度を効果的にバランスするように設計されています。
5Gモバイルネットワークを含む実世界のユースケースで,我々のフレームワークを評価した。
論文 参考訳(メタデータ) (2023-12-15T17:16:04Z) - Learning Safety Constraints From Demonstration Using One-Class Decision
Trees [1.81343777902022]
本稿では,一級決定木を利用して専門家によるデモンストレーションから学習を容易にする手法を提案する。
学習された制約は、その後、オラクル制約強化学習フレームワークに適用される。
他の手法とは対照的に,本手法は安全クリティカルな環境において重要な特徴である制約の解釈可能な表現を提供する。
論文 参考訳(メタデータ) (2023-12-14T11:48:22Z) - Resilient Constrained Learning [94.27081585149836]
本稿では,学習課題を同時に解決しながら,要求に適応する制約付き学習手法を提案する。
我々はこの手法を、その操作を変更することで破壊に適応する生態システムを記述する用語に因んで、レジリエントな制約付き学習と呼ぶ。
論文 参考訳(メタデータ) (2023-06-04T18:14:18Z) - Towards Robust Bisimulation Metric Learning [3.42658286826597]
ビシミュレーションメトリクスは、表現学習問題に対する一つの解決策を提供する。
非最適ポリシーへのオン・ポリティクス・バイシミュレーション・メトリクスの値関数近似境界を一般化する。
これらの問題は、制約の少ない力学モデルと、報酬信号への埋め込みノルムの不安定な依存に起因する。
論文 参考訳(メタデータ) (2021-10-27T00:32:07Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z) - Variational Dynamic for Self-Supervised Exploration in Deep
Reinforcement Learning [64.87110914918101]
本研究では,条件付き変分推論に基づく変動力学モデルを提案し,多モード性および生成性をモデル化する。
環境遷移の負の対数類似度の上界を導出し、その上界を探査の本質的な報酬として利用する。
提案手法は,最先端の環境モデルに基づく探索手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-17T09:54:51Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。