論文の概要: Inverse Reinforcement Learning via Convex Optimization
- arxiv url: http://arxiv.org/abs/2501.15957v1
- Date: Mon, 27 Jan 2025 11:03:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:53:50.435656
- Title: Inverse Reinforcement Learning via Convex Optimization
- Title(参考訳): 凸最適化による逆強化学習
- Authors: Hao Zhu, Yuan Zhang, Joschka Boedecker,
- Abstract要約: 我々は,ある決定プロセスに基づいて未知の報酬関数を推定する逆強化CIRL問題を考察する。
このメモは、凸最適化に関するバックグラウンド知識を必要とせずに、ユーザが自分の問題に簡単に適用できるのに役立つ。
- 参考スコア(独自算出の注目度): 14.050962129607537
- License:
- Abstract: We consider the inverse reinforcement learning (IRL) problem, where an unknown reward function of some Markov decision process is estimated based on observed expert demonstrations. In most existing approaches, IRL is formulated and solved as a nonconvex optimization problem, posing challenges in scenarios where robustness and reproducibility are critical. We discuss a convex formulation of the IRL problem (CIRL) initially proposed by Ng and Russel, and reformulate the problem such that the domain-specific language CVXPY can be applied directly to specify and solve the convex problem. We also extend the CIRL problem to scenarios where the expert policy is not given analytically but by trajectory as state-action pairs, which can be strongly inconsistent with optimality, by augmenting some of the constraints. Theoretical analysis and practical implementation for hyperparameter auto-selection are introduced. This note helps the users to easily apply CIRL for their problems, without background knowledge on convex optimization.
- Abstract(参考訳): 本稿では、マルコフ決定過程の未知の報酬関数を、観察された専門家の実証に基づいて推定する逆強化学習(IRL)問題を考察する。
既存のほとんどのアプローチでは、IRLは非凸最適化問題として定式化され、堅牢性と再現性が重要となるシナリオにおいて課題を提起する。
我々は,Ng と Russel が最初に提案した IRL 問題 (CIRL) の凸定式化について論じ,その凸を特定・解決するためにドメイン固有言語 CVXPY を直接適用できるような問題を再構成する。
我々はまた、CIRL問題を、専門家ポリシーが解析的に与えられるのではなく、最適性と強く矛盾する状態-作用対としての軌道によって拡張し、いくつかの制約を増大させることにより、CIRL問題を拡張した。
ハイパーパラメータ自動選択の理論解析と実装について紹介する。
このノートは、凸最適化に関するバックグラウンド知識を必要とせずに、ユーザが自分の問題に容易にCIRLを適用するのに役立つ。
関連論文リスト
- Towards Convexity in Anomaly Detection: A New Formulation of SSLM with Unique Optimal Solutions [12.250410918282615]
Support Vector Description (SVDD) Small and Large Sphere SVM (MvMs) として広く使われている手法における未解決問題
従来の非アプローチでは不可能であることを示す新しいSSLMを導入する。
論文 参考訳(メタデータ) (2024-10-31T09:42:39Z) - Randomized algorithms and PAC bounds for inverse reinforcement learning in continuous spaces [47.907236421762626]
本研究は、連続状態と作用空間を持つ離散時間割引マルコフ決定過程を研究する。
まず、専門家の政策全体にアクセスでき、逆問題に対する解決策の集合を特徴づけるケースについて考察する。
論文 参考訳(メタデータ) (2024-05-24T12:53:07Z) - From Inverse Optimization to Feasibility to ERM [11.731853838892487]
パラメータの予測に付加的なコンテキスト情報を利用するコンテキスト逆設定について検討する。
合成および実世界の問題に対する我々のアプローチを実験的に検証し,既存手法と比較して性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-02-27T21:06:42Z) - Double Duality: Variational Primal-Dual Policy Optimization for
Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。
制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文 参考訳(メタデータ) (2024-02-16T16:35:18Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Optimizing Solution-Samplers for Combinatorial Problems: The Landscape
of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。
我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。
本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-10-08T23:39:38Z) - Inverse Reinforcement Learning With Constraint Recovery [3.8073142980732992]
本稿では,制約決定過程(CMDP)問題に対する新しい逆強化学習法を提案する。
グリッドワールド環境におけるアルゴリズムの有効性を実証する。
論文 参考訳(メタデータ) (2023-05-14T11:49:37Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - Faster Algorithm and Sharper Analysis for Constrained Markov Decision
Process [56.55075925645864]
制約付き意思決定プロセス (CMDP) の問題点について検討し, エージェントは, 複数の制約を条件として, 期待される累積割引報酬を最大化することを目的とする。
新しいユーティリティ・デュアル凸法は、正規化ポリシー、双対正則化、ネステロフの勾配降下双対という3つの要素の新たな統合によって提案される。
これは、凸制約を受ける全ての複雑性最適化に対して、非凸CMDP問題が$mathcal O (1/epsilon)$の低い境界に達する最初の実演である。
論文 参考訳(メタデータ) (2021-10-20T02:57:21Z) - Successive Convex Approximation Based Off-Policy Optimization for
Constrained Reinforcement Learning [12.523496806744946]
本稿では,一般的な制約付き強化学習問題の解法として,凸近似に基づくオフポリティ最適化(SCAOPO)アルゴリズムを提案する。
時変状態分布と非政治学習によるバイアスにもかかわらず、実現可能な初期点を持つSCAOPOはカルーシュ=クーン=タッカー点に確実に収束することができる。
論文 参考訳(メタデータ) (2021-05-26T13:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。