論文の概要: Inverse Reinforcement Learning With Constraint Recovery
- arxiv url: http://arxiv.org/abs/2305.08130v1
- Date: Sun, 14 May 2023 11:49:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 17:14:26.695637
- Title: Inverse Reinforcement Learning With Constraint Recovery
- Title(参考訳): 制約回復による逆強化学習
- Authors: Nirjhar Das and Arpan Chattopadhyay
- Abstract要約: 本稿では,制約決定過程(CMDP)問題に対する新しい逆強化学習法を提案する。
グリッドワールド環境におけるアルゴリズムの有効性を実証する。
- 参考スコア(独自算出の注目度): 3.8073142980732992
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this work, we propose a novel inverse reinforcement learning (IRL)
algorithm for constrained Markov decision process (CMDP) problems. In standard
IRL problems, the inverse learner or agent seeks to recover the reward function
of the MDP, given a set of trajectory demonstrations for the optimal policy. In
this work, we seek to infer not only the reward functions of the CMDP, but also
the constraints. Using the principle of maximum entropy, we show that the IRL
with constraint recovery (IRL-CR) problem can be cast as a constrained
non-convex optimization problem. We reduce it to an alternating constrained
optimization problem whose sub-problems are convex. We use exponentiated
gradient descent algorithm to solve it. Finally, we demonstrate the efficacy of
our algorithm for the grid world environment.
- Abstract(参考訳): 本研究では,制約付きマルコフ決定過程(CMDP)問題に対する新しい逆強化学習(IRL)アルゴリズムを提案する。
標準IRL問題において、逆学習者またはエージェントは、最適ポリシーに対する一連の軌道実証から、MDPの報酬関数を回復しようとする。
本研究では,cmdpの報酬関数だけでなく,制約についても推測する。
最大エントロピーの原理を用いて、制約回復(irl-cr)問題を持つirlを制約付き非凸最適化問題としてキャストできることを示す。
サブプロブレムが凸である交互に制約された最適化問題に還元する。
我々はそれを解決するために指数勾配降下アルゴリズムを用いる。
最後に,グリッド環境におけるアルゴリズムの有効性を示す。
関連論文リスト
- Best-of-Both-Worlds Policy Optimization for CMDPs with Bandit Feedback [34.7178680288326]
Stradi et al.(2024) は、マルコフ決定過程に制約のある最初のベスト・オブ・ボス・ワールドズ・アルゴリズムを提案した。
本稿では,CMDPにおける帯域幅フィードバックを用いたベスト・オブ・ワールドズ・アルゴリズムを提案する。
本アルゴリズムは政策最適化手法に基づいており, 占有率に基づく手法よりも効率的である。
論文 参考訳(メタデータ) (2024-10-03T07:44:40Z) - Maximum Causal Entropy Inverse Reinforcement Learning for Mean-Field
Games [3.2228025627337864]
離散時間平均場ゲーム(MFG)におけるカジュアルエントロピー逆強化(IRL)問題について,無限水平ディスカウント・リワード最適性基準の下で紹介する。
本稿では,MFG問題を平均場平衡問題を計算可能な一般化ナッシュ平衡問題(GN)として定式化する。
この方法は、数値的な例のためのデータを生成するために用いられる。
論文 参考訳(メタデータ) (2024-01-12T13:22:03Z) - Optimizing Solution-Samplers for Combinatorial Problems: The Landscape
of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。
我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。
本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-10-08T23:39:38Z) - Cancellation-Free Regret Bounds for Lagrangian Approaches in Constrained
Markov Decision Processes [24.51454563844664]
有限水平CMDPのためのモデルベース2元アルゴリズムOptAug-CMDPを提案する。
提案アルゴリズムは誤りのキャンセルを必要とせずに後悔を実現する。
論文 参考訳(メタデータ) (2023-06-12T10:10:57Z) - Constrained Optimization via Exact Augmented Lagrangian and Randomized
Iterative Sketching [55.28394191394675]
等式制約付き非線形非IBS最適化問題に対する適応的不正確なニュートン法を開発した。
ベンチマーク非線形問題,LVMのデータによる制約付きロジスティック回帰,PDE制約問題において,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-28T06:33:37Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Successive Convex Approximation Based Off-Policy Optimization for
Constrained Reinforcement Learning [12.523496806744946]
本稿では,一般的な制約付き強化学習問題の解法として,凸近似に基づくオフポリティ最適化(SCAOPO)アルゴリズムを提案する。
時変状態分布と非政治学習によるバイアスにもかかわらず、実現可能な初期点を持つSCAOPOはカルーシュ=クーン=タッカー点に確実に収束することができる。
論文 参考訳(メタデータ) (2021-05-26T13:52:39Z) - A Stochastic Composite Augmented Lagrangian Method For Reinforcement
Learning [9.204659134755795]
深層強化学習のための線形プログラミング(LP)の定式化について検討する。
拡張ラグランジアン法は、LPの解法において二重サンプリング障害に悩まされる。
深層パラメタライズされたラグランジアン法を提案する。
論文 参考訳(メタデータ) (2021-05-20T13:08:06Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Efficient Optimistic Exploration in Linear-Quadratic Regulators via
Lagrangian Relaxation [107.06364966905821]
線形2次レギュレータ(LQR)設定における探索・探索ジレンマについて検討した。
有限 MDP に対する楽観的アルゴリズムで用いられる拡張値反復アルゴリズムに着想を得て,Oulq の楽観的最適化を緩和することを提案する。
我々は、少なくとも$Obig(log (1/epsilon)big)$ Riccati方程式を解くことで、$epsilon$-OptimisticControllerを効率的に計算できることを示した。
論文 参考訳(メタデータ) (2020-07-13T16:30:47Z) - Approximation Schemes for ReLU Regression [80.33702497406632]
我々はReLU回帰の根本的な問題を考察する。
目的は、未知の分布から引き出された2乗損失に対して、最も適したReLUを出力することである。
論文 参考訳(メタデータ) (2020-05-26T16:26:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。