論文の概要: Maximum Causal Entropy Inverse Constrained Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.02857v1
- Date: Thu, 4 May 2023 14:18:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 15:24:33.659588
- Title: Maximum Causal Entropy Inverse Constrained Reinforcement Learning
- Title(参考訳): 最大因果エントロピー逆制約強化学習
- Authors: Mattijs Baert, Pietro Mazzaglia, Sam Leroux, Pieter Simoens
- Abstract要約: 本稿では,最大因果エントロピーの原理を用いて制約と最適ポリシーを学習する手法を提案する。
得られた報酬と制約違反数を評価することで,学習方針の有効性を評価する。
本手法は様々なタスクや環境にまたがって最先端の手法より優れていることが示されている。
- 参考スコア(独自算出の注目度): 3.409089945290584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When deploying artificial agents in real-world environments where they
interact with humans, it is crucial that their behavior is aligned with the
values, social norms or other requirements of that environment. However, many
environments have implicit constraints that are difficult to specify and
transfer to a learning agent. To address this challenge, we propose a novel
method that utilizes the principle of maximum causal entropy to learn
constraints and an optimal policy that adheres to these constraints, using
demonstrations of agents that abide by the constraints. We prove convergence in
a tabular setting and provide an approximation which scales to complex
environments. We evaluate the effectiveness of the learned policy by assessing
the reward received and the number of constraint violations, and we evaluate
the learned cost function based on its transferability to other agents. Our
method has been shown to outperform state-of-the-art approaches across a
variety of tasks and environments, and it is able to handle problems with
stochastic dynamics and a continuous state-action space.
- Abstract(参考訳): 人間と相互作用する現実世界の環境に人工エージェントを配置する場合、それらの行動は、その環境の価値観、社会的規範、その他の要件と一致していることが重要である。
しかし、多くの環境には暗黙の制約があり、学習エージェントに指定や転送が困難である。
この課題に対処するために,制約を学習するための最大因果エントロピーの原理と,制約に従属するエージェントのデモンストレーションを用いて,制約に従属する最適なポリシーを利用する手法を提案する。
表の設定における収束を証明し、複雑な環境にスケールする近似を与える。
我々は,受給した報酬と制約違反の数を評価することで,学習方針の有効性を評価し,学習コスト関数を他のエージェントへの転送性に基づいて評価する。
提案手法は,様々なタスクや環境にまたがる最先端のアプローチよりも優れており,確率的ダイナミクスと連続的な状態動作空間で問題に対処することができる。
関連論文リスト
- Efficient Imitation Learning with Conservative World Models [54.52140201148341]
報酬機能のない専門家によるデモンストレーションから政策学習の課題に取り組む。
純粋な強化学習ではなく、微調整問題として模倣学習を再構成する。
論文 参考訳(メタデータ) (2024-05-21T20:53:18Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Constrained Meta-Reinforcement Learning for Adaptable Safety Guarantee
with Differentiable Convex Programming [4.825619788907192]
本稿では,メタラーニングアプローチ(ラーニング・トゥ・ラーン)のレンズを通して制約された問題を解くことによって,非定常環境における安全性を確保するためのユニークな課題について考察する。
まず,複数タスクにまたがるコンベックス制約付きポリシー更新を連続的に採用し,エンドツーエンドの差別化を可能にすることで,制約のあるシナリオにおけるメタラーニングを可能にする。
論文 参考訳(メタデータ) (2023-12-15T21:55:43Z) - Risk-Aware Continuous Control with Neural Contextual Bandits [8.911816419902427]
本稿では,コンテキスト的盗聴問題に対するリスク認識型意思決定フレームワークを提案する。
私たちのフレームワークは、さまざまなリスクレベルに対応し、パフォーマンスに対する制約満足度を効果的にバランスするように設計されています。
5Gモバイルネットワークを含む実世界のユースケースで,我々のフレームワークを評価した。
論文 参考訳(メタデータ) (2023-12-15T17:16:04Z) - Learning Safety Constraints From Demonstration Using One-Class Decision
Trees [1.81343777902022]
本稿では,一級決定木を利用して専門家によるデモンストレーションから学習を容易にする手法を提案する。
学習された制約は、その後、オラクル制約強化学習フレームワークに適用される。
他の手法とは対照的に,本手法は安全クリティカルな環境において重要な特徴である制約の解釈可能な表現を提供する。
論文 参考訳(メタデータ) (2023-12-14T11:48:22Z) - Resilient Constrained Learning [94.27081585149836]
本稿では,学習課題を同時に解決しながら,要求に適応する制約付き学習手法を提案する。
我々はこの手法を、その操作を変更することで破壊に適応する生態システムを記述する用語に因んで、レジリエントな制約付き学習と呼ぶ。
論文 参考訳(メタデータ) (2023-06-04T18:14:18Z) - Towards Robust Bisimulation Metric Learning [3.42658286826597]
ビシミュレーションメトリクスは、表現学習問題に対する一つの解決策を提供する。
非最適ポリシーへのオン・ポリティクス・バイシミュレーション・メトリクスの値関数近似境界を一般化する。
これらの問題は、制約の少ない力学モデルと、報酬信号への埋め込みノルムの不安定な依存に起因する。
論文 参考訳(メタデータ) (2021-10-27T00:32:07Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。