論文の概要: Deep PQR: Solving Inverse Reinforcement Learning using Anchor Actions
- arxiv url: http://arxiv.org/abs/2007.07443v2
- Date: Sat, 15 Aug 2020 02:26:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 05:17:38.708188
- Title: Deep PQR: Solving Inverse Reinforcement Learning using Anchor Actions
- Title(参考訳): Deep PQR:アンカーアクションを用いた逆強化学習の解法
- Authors: Sinong Geng, Houssam Nassif, Carlos A. Manzanares, A. Max Reppen,
Ronnie Sircar
- Abstract要約: 提案手法は,政策,Q$関数,深層学習によるReward関数を逐次推定するので,PQRと命名する。
PQRは報酬が状態のみに依存するのではなく、アクションの選択に依存していると仮定する。
- 参考スコア(独自算出の注目度): 7.979704497050649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a reward function estimation framework for inverse reinforcement
learning with deep energy-based policies. We name our method PQR, as it
sequentially estimates the Policy, the $Q$-function, and the Reward function by
deep learning. PQR does not assume that the reward solely depends on the state,
instead it allows for a dependency on the choice of action. Moreover, PQR
allows for stochastic state transitions. To accomplish this, we assume the
existence of one anchor action whose reward is known, typically the action of
doing nothing, yielding no reward. We present both estimators and algorithms
for the PQR method. When the environment transition is known, we prove that the
PQR reward estimator uniquely recovers the true reward. With unknown
transitions, we bound the estimation error of PQR. Finally, the performance of
PQR is demonstrated by synthetic and real-world datasets.
- Abstract(参考訳): 本稿では,エネルギーをベースとした逆強化学習のための報酬関数推定フレームワークを提案する。
提案手法は,政策,Q$関数,深層学習によるReward関数を逐次推定するので,PQRと命名する。
pqrは報酬が状態のみに依存すると仮定せず、代わりにアクションの選択に依存することを許している。
さらに、PQRは確率的状態遷移を可能にする。
これを達成するために、報酬が知られている一つのアンカーアクションの存在を仮定する。
PQR法における推定器とアルゴリズムについて述べる。
環境遷移が分かっている場合、PQR報酬推定器が真の報酬を一意に回復することを示す。
未知の遷移では、PQRの推定誤差を限定する。
最後に、PQRの性能は、合成および実世界のデータセットによって実証される。
関連論文リスト
- Learning Reward Machines from Partially Observed Optimal Policies [0.40964539027092917]
逆強化学習は、最適政策から報酬関数を推定する問題である。
我々の目標は、有限情報を用いて真の報奨機を特定することである。
論文 参考訳(メタデータ) (2025-02-06T03:48:25Z) - Walking the Values in Bayesian Inverse Reinforcement Learning [66.68997022043075]
ベイズIRLの鍵となる課題は、可能な報酬の仮説空間と可能性の間の計算的ギャップを埋めることである。
本稿では,この知見に基づく新しいマルコフ連鎖モンテカルロ法であるValueWalkを提案する。
論文 参考訳(メタデータ) (2024-07-15T17:59:52Z) - On the Global Convergence of Policy Gradient in Average Reward Markov
Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。
我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文 参考訳(メタデータ) (2024-03-11T15:25:03Z) - Solving Non-Rectangular Reward-Robust MDPs via Frequency Regularization [39.740287682191884]
ロバストマルコフ決定過程(RMDP)では、報酬と遷移ダイナミクスは与えられた不確実性集合にあると仮定される。
このいわゆる長方性条件は、単に計算上の問題によって動機付けられている。
政策段階の手法を導入し,その収束性を証明する。
論文 参考訳(メタデータ) (2023-09-03T07:34:26Z) - On Reward Structures of Markov Decision Processes [4.13365552362244]
マルコフ決定過程は、遷移カーネルと報酬関数によってパラメータ化することができる。
ロボット応用の需要に触発された強化学習に関連する様々な「コスト」について検討する。
単一状態値を推定するためのインスタンス固有のエラーを$tildeO(sqrtfractau_sn)$にバインドした新しい推定器を開発する。
論文 参考訳(メタデータ) (2023-08-28T22:29:16Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Dynamics-Aware Comparison of Learned Reward Functions [21.159457412742356]
報酬関数を学習する能力は、現実世界にインテリジェントエージェントを配置する上で重要な役割を果たす。
リワード関数は通常、最適化されたポリシーの振舞いを考慮することで比較されるが、このアプローチは報酬関数の欠陥を最適化に使用するポリシー探索アルゴリズムのそれと混同する。
そこで我々はDARD(Dynamics-Aware Reward Distance)を提案する。
論文 参考訳(メタデータ) (2022-01-25T03:48:00Z) - On Reward-Free Reinforcement Learning with Linear Function Approximation [144.4210285338698]
Reward-free reinforcement learning (RL) は、バッチRL設定と多くの報酬関数がある設定の両方に適したフレームワークである。
本研究では,線形関数近似を用いた報酬のないRLに対して,正と負の両方の結果を与える。
論文 参考訳(メタデータ) (2020-06-19T17:59:36Z) - Reward-Free Exploration for Reinforcement Learning [82.3300753751066]
探索の課題を分離する「逆フリーなRL」フレームワークを提案する。
我々は,$tildemathcalO(S2Amathrmpoly(H)/epsilon2)$の探索を効率的に行うアルゴリズムを提案する。
また、ほぼ一致する$Omega(S2AH2/epsilon2)$ lower boundを与え、この設定でアルゴリズムのほぼ最適性を示す。
論文 参考訳(メタデータ) (2020-02-07T14:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。