論文の概要: Demonstration-Regularized RL
- arxiv url: http://arxiv.org/abs/2310.17303v1
- Date: Thu, 26 Oct 2023 10:54:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 21:00:44.486111
- Title: Demonstration-Regularized RL
- Title(参考訳): デモストレーション規則化RL
- Authors: Daniil Tiapkin, Denis Belomestny, Daniele Calandriello, Eric Moulines,
Alexey Naumov, Pierre Perrault, Michal Valko, Pierre Menard
- Abstract要約: 専門的な実証から,次数$widetildemathcalO(mathrmPoly(S,A,H)/(varepsilon2 NmathrmE)$の有限および$widetildemathcalO(mathrmPoly(d,H)/(varepsilon2 NmathrmE)$の線形マルコフ決定過程における最適ポリシを同定する。
- 参考スコア(独自算出の注目度): 41.465567768628794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Incorporating expert demonstrations has empirically helped to improve the
sample efficiency of reinforcement learning (RL). This paper quantifies
theoretically to what extent this extra information reduces RL's sample
complexity. In particular, we study the demonstration-regularized reinforcement
learning that leverages the expert demonstrations by KL-regularization for a
policy learned by behavior cloning. Our findings reveal that using
$N^{\mathrm{E}}$ expert demonstrations enables the identification of an optimal
policy at a sample complexity of order
$\widetilde{\mathcal{O}}(\mathrm{Poly}(S,A,H)/(\varepsilon^2 N^{\mathrm{E}}))$
in finite and $\widetilde{\mathcal{O}}(\mathrm{Poly}(d,H)/(\varepsilon^2
N^{\mathrm{E}}))$ in linear Markov decision processes, where $\varepsilon$ is
the target precision, $H$ the horizon, $A$ the number of action, $S$ the number
of states in the finite case and $d$ the dimension of the feature space in the
linear case. As a by-product, we provide tight convergence guarantees for the
behaviour cloning procedure under general assumptions on the policy classes.
Additionally, we establish that demonstration-regularized methods are provably
efficient for reinforcement learning from human feedback (RLHF). In this
respect, we provide theoretical evidence showing the benefits of
KL-regularization for RLHF in tabular and linear MDPs. Interestingly, we avoid
pessimism injection by employing computationally feasible regularization to
handle reward estimation uncertainty, thus setting our approach apart from the
prior works.
- Abstract(参考訳): 専門家による実証実験を取り入れることで、強化学習(RL)のサンプル効率が向上した。
この追加情報がrlのサンプルの複雑さをどの程度減少させるかを理論的に定量化する。
特に,kl-regularization による実証的な強化学習を,行動のクローン化によって学習された方針に活用する。
Our findings reveal that using $N^{\mathrm{E}}$ expert demonstrations enables the identification of an optimal policy at a sample complexity of order $\widetilde{\mathcal{O}}(\mathrm{Poly}(S,A,H)/(\varepsilon^2 N^{\mathrm{E}}))$ in finite and $\widetilde{\mathcal{O}}(\mathrm{Poly}(d,H)/(\varepsilon^2 N^{\mathrm{E}}))$ in linear Markov decision processes, where $\varepsilon$ is the target precision, $H$ the horizon, $A$ the number of action, $S$ the number of states in the finite case and $d$ the dimension of the feature space in the linear case.
副産物として,政策クラスにおける一般的な仮定の下での行動クローニング手順に対する厳密な収束保証を提供する。
さらに,人間のフィードバック(RLHF)からの強化学習において,実演規則化手法が有効であることを示す。
本稿では,RLHF に対する KL-正則化の利点を表わす理論的証拠を提供する。
興味深いことに、我々は報酬推定の不確実性に対処するために計算可能な正則化を用いることで悲観的注入を避ける。
関連論文リスト
- Provably Robust Temporal Difference Learning for Heavy-Tailed Rewards [27.209606183563853]
動的勾配クリッピング機構による時間差(TD)学習は,重み付き報酬分布に対して確実に堅牢化できることを確認した。
TD学習に基づくNACの頑健な変種が$tildemathcalO(varepsilon-frac1p)$サンプル複雑性を達成することを示す。
論文 参考訳(メタデータ) (2023-06-20T11:12:21Z) - Reinforcement Learning with General Utilities: Simpler Variance
Reduction and Large State-Action Space [17.366915676628867]
一般用途における強化学習の課題について考察する。
我々のアルゴリズムは、$tildemathcalO(epsilon-3)$と$tildemathcalO(epsilon-2)$サンプル複雑度を達成する。
論文 参考訳(メタデータ) (2023-06-02T18:16:35Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning
via Langevin Monte Carlo [98.11820566044216]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - Bridging Distributional and Risk-sensitive Reinforcement Learning with
Provable Regret Bounds [24.571530193140916]
エントロピーリスク尺度(EntRM)が目的である有限エピソードマルコフ決定過程を考察する。
モデルフリーとモデルベースを含む2つの異なるスキームを用いて最適化を実装する2つの新しいDRLアルゴリズムを提案する。
いずれも$tildemathcalO(fracexp(|beta|H)-1|beta|HsqrtS2AK)$ regret upper bound, where $S$, $A$, $K$, $H$は数値を表す。
論文 参考訳(メタデータ) (2022-10-25T14:30:48Z) - A Few Expert Queries Suffices for Sample-Efficient RL with Resets and
Linear Value Approximation [16.29514743112387]
最適値関数のみを線形化可能な設定において、サンプル効率のよい強化学習(RL)について検討する。
専門的なクエリと探索をブレンドするための統計的・計算学的に効率的なアルゴリズム(Delphi)を提案する。
Delphi には $tildemathcalO(d)$ エキスパートクエリと $texttpoly(d,|mathcalA|,1/varepsilon)$ 探索サンプルの量が必要です。
論文 参考訳(メタデータ) (2022-07-18T01:39:13Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Sample-Efficient Reinforcement Learning for POMDPs with Linear Function
Approximations [130.66193083412716]
本稿では,関数近似と部分観測可能性の緊張に対処する。
最適ポリシーと値関数は有限メモリヒルベルト・ベルマン作用素の列によって特徴づけられることを示す。
本稿では、カーネル空間(RKHS)の埋め込みを再現することで、これらの演算子の楽観的な推定値を構成するRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-04-20T21:15:38Z) - Reward-Free RL is No Harder Than Reward-Aware RL in Linear Markov
Decision Processes [61.11090361892306]
Reward-free reinforcement learning (RL) は、エージェントが探索中に報酬関数にアクセスできないような環境を考える。
この分離は線形MDPの設定には存在しないことを示す。
我々は$d$次元線形 MDP における報酬のない RL に対する計算効率の良いアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-01-26T22:09:59Z) - On Function Approximation in Reinforcement Learning: Optimism in the
Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。
特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。
私たちの後悔の限界はエピソードの数とは無関係です。
論文 参考訳(メタデータ) (2020-11-09T18:32:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。