論文の概要: X-MEN: Guaranteed XOR-Maximum Entropy Constrained Inverse Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2203.11842v1
- Date: Tue, 22 Mar 2022 16:09:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-23 15:09:49.930404
- Title: X-MEN: Guaranteed XOR-Maximum Entropy Constrained Inverse Reinforcement
Learning
- Title(参考訳): X-MEN: XOR-Maximum Entropy Constrained Inverse Reinforcement Learning
- Authors: Fan Ding, Yeiang Xue
- Abstract要約: 逆強化学習(Inverse Reinforcement Learning)は、デモから学ぶ強力な方法である。
XOR-Maximum Entropy Constrained Inverse Reinforcement Learningを提案する。
X-MENは、学習したポリシーが制約に反する軌道を決して生成しないことを保証する。
- 参考スコア(独自算出の注目度): 3.616948583169635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inverse Reinforcement Learning (IRL) is a powerful way of learning from
demonstrations. In this paper, we address IRL problems with the availability of
prior knowledge that optimal policies will never violate certain constraints.
Conventional approaches ignoring these constraints need many demonstrations to
converge. We propose XOR-Maximum Entropy Constrained Inverse Reinforcement
Learning (X-MEN), which is guaranteed to converge to the optimal policy in
linear rate w.r.t. the number of learning iterations. X-MEN embeds XOR-sampling
-- a provable sampling approach that transforms the #P complete sampling
problem into queries to NP oracles -- into the framework of maximum entropy
IRL. X-MEN also guarantees the learned policy will never generate trajectories
that violate constraints. Empirical results in navigation demonstrate that
X-MEN converges faster to the optimal policies compared to baseline approaches
and always generates trajectories that satisfy multi-state combinatorial
constraints.
- Abstract(参考訳): 逆強化学習(IRL)はデモから学ぶ強力な方法である。
本稿では,適切なポリシーが一定の制約に反することはないという事前知識の活用によるIRL問題に対処する。
これらの制約を無視した従来のアプローチは、収束するために多くのデモを必要とする。
本稿では,学習イテレーション数に対して線形レートの最適ポリシに収束することが保証される,XOR-Maximum Entropy Constrained Inverse Reinforcement Learning (X-MEN)を提案する。
x-menはxor-sampling(#p完全サンプリング問題をnp oracleにクエリに変換する証明可能なサンプリングアプローチ)を最大エントロピーirlのフレームワークに組み込んでいる。
X-MENはまた、学習ポリシーが制約に反するトラジェクトリを決して生成しないことを保証する。
ナビゲーションにおける経験的な結果は、X-MENはベースラインアプローチと比較して最適ポリシーに早く収束し、多状態組合せ制約を満たす軌道を生成することを示している。
関連論文リスト
- Performative Reinforcement Learning with Linear Markov Decision Process [14.75815792682734]
提案手法がマルコフ決定過程の報酬と遷移の両方に影響を及ぼすような表現的強化学習の設定について検討する。
大規模MDPの主要な理論モデルであるEmphlinear Markov決定過程を一般化する。
論文 参考訳(メタデータ) (2024-11-07T23:04:48Z) - Learning to Explore with Lagrangians for Bandits under Unknown Linear Constraints [8.784438985280094]
線形制約が未知の多腕バンディットにおける純粋探索として問題を研究する。
まず、制約下での純粋な探索のために、サンプルの複雑さを低く抑えたラグランジアン緩和を提案する。
第二に、ラグランジアンの下界と凸の性質を利用して、トラック・アンド・ストップとガミファイド・エクスプローラー(LATSとLAGEX)の2つの計算効率の良い拡張を提案する。
論文 参考訳(メタデータ) (2024-10-24T15:26:14Z) - Learning General Continuous Constraint from Demonstrations via Positive-Unlabeled Learning [8.361428709513476]
本稿では,実証から連続的,任意の,あるいは非線形な制約を推測する,正の未ラベル(PU)学習手法を提案する。
提案手法の有効性を2つのMujoco環境で検証した。
論文 参考訳(メタデータ) (2024-07-23T14:00:18Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Optimal Multi-Distribution Learning [88.3008613028333]
マルチディストリビューション学習は、$k$の異なるデータ分散における最悪のリスクを最小限に抑える共有モデルを学ぶことを目指している。
本稿では, (d+k)/varepsilon2の順に, サンプルの複雑さを伴って, ヴァレプシロン最適ランダム化仮説を導出するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-08T16:06:29Z) - Robust Imitation via Mirror Descent Inverse Reinforcement Learning [18.941048578572577]
本稿では,制約付き凸問題の反復解である報酬関数列を予測することを提案する。
提案したミラー降下更新規則は,ブレグマンの発散を最小化できることを示す。
我々のIRL法は, 既存手法よりも高い性能を示した。
論文 参考訳(メタデータ) (2022-10-20T12:25:21Z) - Interactively Learning Preference Constraints in Linear Bandits [100.78514640066565]
我々は、既知の報酬と未知の制約で逐次意思決定を研究する。
応用として,運転シミュレーションにおいて,人間の嗜好を表現するための学習制約を検討する。
論文 参考訳(メタデータ) (2022-06-10T17:52:58Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Beyond Value-Function Gaps: Improved Instance-Dependent Regret Bounds
for Episodic Reinforcement Learning [50.44564503645015]
有限エピソードマルコフ決定過程における強化学習のための改良されたギャップ依存的後悔境界を提供する。
楽観的なアルゴリズムでは,より強い後悔境界を証明し,多数のMDPに対して新たな情報理論的下限を伴う。
論文 参考訳(メタデータ) (2021-07-02T20:36:05Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。