論文の概要: Langevin Dynamics for Adaptive Inverse Reinforcement Learning of
Stochastic Gradient Algorithms
- arxiv url: http://arxiv.org/abs/2006.11674v2
- Date: Mon, 18 Jan 2021 14:40:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 22:38:43.447552
- Title: Langevin Dynamics for Adaptive Inverse Reinforcement Learning of
Stochastic Gradient Algorithms
- Title(参考訳): 確率勾配アルゴリズムの適応的逆強化学習のためのランゲヴィンダイナミクス
- Authors: Vikram Krishnamurthy and George Yin
- Abstract要約: 逆強化学習(IRL)は, エージェントの応答を観察することで, エージェントの報酬関数を推定することを目的としている。
我々は、報酬関数 $R(theta)$ を推定するために一般化されたランゲヴィン力学を示す。
提案したIRLアルゴリズムは、カーネルベースの受動的学習スキームを用いて、$exp(R(theta)$に比例した分布からサンプルを生成する。
- 参考スコア(独自算出の注目度): 21.796874356469644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inverse reinforcement learning (IRL) aims to estimate the reward function of
optimizing agents by observing their response (estimates or actions). This
paper considers IRL when noisy estimates of the gradient of a reward function
generated by multiple stochastic gradient agents are observed. We present a
generalized Langevin dynamics algorithm to estimate the reward function
$R(\theta)$; specifically, the resulting Langevin algorithm asymptotically
generates samples from the distribution proportional to $\exp(R(\theta))$. The
proposed IRL algorithms use kernel-based passive learning schemes. We also
construct multi-kernel passive Langevin algorithms for IRL which are suitable
for high dimensional data. The performance of the proposed IRL algorithms are
illustrated on examples in adaptive Bayesian learning, logistic regression
(high dimensional problem) and constrained Markov decision processes. We prove
weak convergence of the proposed IRL algorithms using martingale averaging
methods. We also analyze the tracking performance of the IRL algorithms in
non-stationary environments where the utility function $R(\theta)$ jump changes
over time as a slow Markov chain.
- Abstract(参考訳): 逆強化学習(IRL)は、エージェントの反応(見積や行動)を観察することで、エージェントの報酬関数を推定することを目的としている。
本稿では,複数の確率勾配エージェントが生成する報酬関数の勾配のノイズ推定を行った場合のIRLについて考察する。
一般化したランゲヴィン力学アルゴリズムを用いて報酬関数 $R(\theta)$ を推定する。具体的には、結果のランゲヴィンアルゴリズムは、分布から$\exp(R(\theta))$ に比例してサンプルを漸近的に生成する。
提案するirlアルゴリズムはカーネルベースのパッシブ学習方式を用いる。
また、高次元データに適したIRLのためのマルチカーネル受動ランゲインアルゴリズムを構築した。
提案するirlアルゴリズムの性能は、適応ベイズ学習、ロジスティック回帰(高次元問題)、制約付きマルコフ決定過程の例で示される。
提案するirlアルゴリズムの弱収束をmartingale平均化法を用いて証明する。
また,ユーティリティ関数$R(\theta)$ jumpが遅いマルコフ連鎖として時間とともに変化する非定常環境におけるIRLアルゴリズムの追跡性能も解析する。
関連論文リスト
- Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - Finite-Sample Bounds for Adaptive Inverse Reinforcement Learning using Passive Langevin Dynamics [13.440621354486906]
本稿では,受動勾配ランゲヴィンダイナミクス(PSGLD)アルゴリズムの有限サンプル解析を行う。
Adaptive IRLは、勾配アルゴリズムを実行する前方学習者のコスト関数を推定することを目的としている。
論文 参考訳(メタデータ) (2023-04-18T16:39:51Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - Randomized Exploration for Reinforcement Learning with General Value
Function Approximation [122.70803181751135]
本稿では,ランダム化最小二乗値反復(RLSVI)アルゴリズムに着想を得たモデルレス強化学習アルゴリズムを提案する。
提案アルゴリズムは,スカラーノイズを用いたトレーニングデータを簡易に摂動させることにより,探索を促進する。
我々はこの理論を、既知の困難な探査課題にまたがる実証的な評価で補完する。
論文 参考訳(メタデータ) (2021-06-15T02:23:07Z) - An Efficient Algorithm for Deep Stochastic Contextual Bandits [10.298368632706817]
コンテキスト境界の問題では、エージェントは特定の観察されたコンテキストに基づいてアクションを選択し、反復よりも報酬を最大化します。
近年、ディープニューラルネットワーク(DNN)を用いて行動に対する期待される報酬を予測する研究がいくつか行われ、勾配に基づく手法で訓練されている。
論文 参考訳(メタデータ) (2021-04-12T16:34:43Z) - Reinforcement Learning with General Value Function Approximation:
Provably Efficient Approach via Bounded Eluder Dimension [124.7752517531109]
一般値関数近似を用いた効率の良い強化学習アルゴリズムを確立する。
我々のアルゴリズムは、$d$が複雑性測度である場合、$widetildeO(mathrmpoly(dH)sqrtT)$の後悔の限界を達成することを示す。
我々の理論は線形値関数近似によるRLの最近の進歩を一般化し、環境モデルに対する明示的な仮定をしない。
論文 参考訳(メタデータ) (2020-05-21T17:36:09Z) - Accelerated Learning with Robustness to Adversarial Regressors [1.0499611180329802]
本稿では,逆回帰器の存在下での安定性と収束性を保証する離散時間アルゴリズムを提案する。
特に、回帰器が一定である場合、我々のアルゴリズムは少なくとも $tildemathcalO (1/sqrtepsilon)$ において $epsilon$ 準最適点に達する。
論文 参考訳(メタデータ) (2020-05-04T14:42:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。