論文の概要: Randomized algorithms and PAC bounds for inverse reinforcement learning in continuous spaces
- arxiv url: http://arxiv.org/abs/2405.15509v1
- Date: Fri, 24 May 2024 12:53:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 14:22:48.300906
- Title: Randomized algorithms and PAC bounds for inverse reinforcement learning in continuous spaces
- Title(参考訳): 連続空間における逆強化学習のためのランダム化アルゴリズムとPAC境界
- Authors: Angeliki Kamoutsi, Peter Schmitt-Förster, Tobias Sutter, Volkan Cevher, John Lygeros,
- Abstract要約: 本研究は、連続状態と作用空間を持つ離散時間割引マルコフ決定過程を研究する。
まず、専門家の政策全体にアクセスでき、逆問題に対する解決策の集合を特徴づけるケースについて考察する。
- 参考スコア(独自算出の注目度): 47.907236421762626
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work studies discrete-time discounted Markov decision processes with continuous state and action spaces and addresses the inverse problem of inferring a cost function from observed optimal behavior. We first consider the case in which we have access to the entire expert policy and characterize the set of solutions to the inverse problem by using occupation measures, linear duality, and complementary slackness conditions. To avoid trivial solutions and ill-posedness, we introduce a natural linear normalization constraint. This results in an infinite-dimensional linear feasibility problem, prompting a thorough analysis of its properties. Next, we use linear function approximators and adopt a randomized approach, namely the scenario approach and related probabilistic feasibility guarantees, to derive epsilon-optimal solutions for the inverse problem. We further discuss the sample complexity for a desired approximation accuracy. Finally, we deal with the more realistic case where we only have access to a finite set of expert demonstrations and a generative model and provide bounds on the error made when working with samples.
- Abstract(参考訳): 本研究は、連続状態と作用空間を持つ離散時間割引マルコフ決定過程を研究し、観測された最適挙動からコスト関数を推定する逆問題に対処する。
まず, 職業対策, 線形双対性, 相補的スラックネス条件を用いて, 専門家の政策全体にアクセスでき, 逆問題に対する解の集合を特徴づける。
自明な解や不確かさを避けるため、自然な線形正規化制約を導入する。
この結果、無限次元線型実現可能性問題が発生し、その性質を徹底的に解析する。
次に、線形関数近似器を用いて、シナリオアプローチと関連する確率的実現可能性保証をランダム化して、逆問題に対するエプシロン最適解を導出する。
さらに、所望の近似精度のサンプル複雑性について論じる。
最後に、限られた専門家によるデモンストレーションと生成モデルにしかアクセスできない、より現実的なケースに対処し、サンプルを扱う際のエラーのバウンダリを提供する。
関連論文リスト
- Online Non-convex Optimization with Long-term Non-convex Constraints [2.033434950296318]
Follow-the-Perturbed-Leader型アルゴリズムを提案する。
提案アルゴリズムは,長期(極値)制約のある河川汚染源同定問題に対処するために適用された。
論文 参考訳(メタデータ) (2023-11-04T15:08:36Z) - Improved High-Probability Bounds for the Temporal Difference Learning Algorithm via Exponential Stability [17.771354881467435]
一般化された, インスタンスに依存しないステップサイズを持つ単純なアルゴリズムは, ほぼ最適分散とバイアス項を得るのに十分であることを示す。
本手法は, 線形近似のための洗練された誤差境界と, ランダム行列の積に対する新しい安定性結果に基づく。
論文 参考訳(メタデータ) (2023-10-22T12:37:25Z) - A Sequential Quadratic Programming Method with High Probability
Complexity Bounds for Nonlinear Equality Constrained Stochastic Optimization [2.535271349350579]
制約関数値と導関数は利用可能であると仮定されるが、対象関数とその関連する導関数のプログラミング近似のみを計算することができる。
1次定常性を近似するためにアルゴリズムの反復複雑性に縛られる高い確率が導出される。
論文 参考訳(メタデータ) (2023-01-01T21:46:50Z) - Fully Stochastic Trust-Region Sequential Quadratic Programming for
Equality-Constrained Optimization Problems [62.83783246648714]
目的と決定論的等式制約による非線形最適化問題を解くために,逐次2次プログラミングアルゴリズム(TR-StoSQP)を提案する。
アルゴリズムは信頼領域半径を適応的に選択し、既存の直線探索StoSQP方式と比較して不確定なヘッセン行列を利用することができる。
論文 参考訳(メタデータ) (2022-11-29T05:52:17Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - Optimal variance-reduced stochastic approximation in Banach spaces [114.8734960258221]
可分バナッハ空間上で定義された収縮作用素の定点を推定する問題について検討する。
演算子欠陥と推定誤差の両方に対して漸近的でない境界を確立する。
論文 参考訳(メタデータ) (2022-01-21T02:46:57Z) - Integrated Conditional Estimation-Optimization [6.037383467521294]
確率のある不確実なパラメータを文脈的特徴情報を用いて推定できる実世界の多くの最適化問題である。
不確実なパラメータの分布を推定する標準的な手法とは対照的に,統合された条件推定手法を提案する。
当社のI CEOアプローチは、穏健な条件下で理論的に一貫性があることを示します。
論文 参考訳(メタデータ) (2021-10-24T04:49:35Z) - Linear-Time Probabilistic Solutions of Boundary Value Problems [27.70274403550477]
我々は、Gauss--Markov を前もって導入し、特に BVP に調整する。
これにより、線形時間で解の後方分布を計算し、よく確立された非確率的手法に匹敵する品質とコストで計算することができる。
論文 参考訳(メタデータ) (2021-06-14T21:19:17Z) - Optimal oracle inequalities for solving projected fixed-point equations [53.31620399640334]
ヒルベルト空間の既知の低次元部分空間を探索することにより、確率観測の集合を用いて近似解を計算する手法を検討する。
本稿では,線形関数近似を用いた政策評価問題に対する時間差分学習手法の誤差を正確に評価する方法について述べる。
論文 参考訳(メタデータ) (2020-12-09T20:19:32Z) - High-Dimensional Robust Mean Estimation via Gradient Descent [73.61354272612752]
一定対向分数の存在下でのロバスト平均推定の問題は勾配降下によって解けることを示す。
我々の研究は、近辺の非補題推定とロバスト統計の間の興味深い関係を確立する。
論文 参考訳(メタデータ) (2020-05-04T10:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。