論文の概要: Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation
- arxiv url: http://arxiv.org/abs/2205.11140v2
- Date: Tue, 24 May 2022 02:42:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-25 12:05:15.851814
- Title: Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation
- Title(参考訳): Human-in-the-loop: 一般関数近似を用いた効率的推論に基づく強化学習
- Authors: Xiaoyu Chen, Han Zhong, Zhuoran Yang, Zhaoran Wang, Liwei Wang
- Abstract要約: 本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 107.54516740713969
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study human-in-the-loop reinforcement learning (RL) with trajectory
preferences, where instead of receiving a numeric reward at each step, the
agent only receives preferences over trajectory pairs from a human overseer.
The goal of the agent is to learn the optimal policy which is most preferred by
the human overseer. Despite the empirical successes, the theoretical
understanding of preference-based RL (PbRL) is only limited to the tabular
case. In this paper, we propose the first optimistic model-based algorithm for
PbRL with general function approximation, which estimates the model using
value-targeted regression and calculates the exploratory policies by solving an
optimistic planning problem. Our algorithm achieves the regret of $\tilde{O}
(\operatorname{poly}(d H) \sqrt{K} )$, where $d$ is the complexity measure of
the transition and preference model depending on the Eluder dimension and
log-covering numbers, $H$ is the planning horizon, $K$ is the number of
episodes, and $\tilde O(\cdot)$ omits logarithmic terms. Our lower bound
indicates that our algorithm is near-optimal when specialized to the linear
setting. Furthermore, we extend the PbRL problem by formulating a novel problem
called RL with $n$-wise comparisons, and provide the first sample-efficient
algorithm for this new setting. To the best of our knowledge, this is the first
theoretical result for PbRL with (general) function approximation.
- Abstract(参考訳): そこで,各ステップで数値的な報酬を受けるのではなく,人間の監督者から軌道ペアに対してのみ選好を受ける。
エージェントの目標は、人間の監督者に最も好まれる最適なポリシーを学ぶことである。
経験的成功にもかかわらず、嗜好に基づくRL(PbRL)の理論的理解は表の場合に限られる。
本稿では,一般関数近似を用いたpbrlのための最初の楽観的モデルベースアルゴリズムを提案する。
我々のアルゴリズムは、$\tilde{O} (\operatorname{poly}(d H) \sqrt{K} )$, $d$は、エルダー次元とログ被覆数に依存する遷移と選好モデルの複雑さ尺度であり、$H$は計画的地平線であり、$K$はエピソード数であり、$\tilde O(\cdot)$は対数項を省略する。
我々の下界は、線形設定に特化する場合、アルゴリズムがほぼ最適であることを示している。
さらに、RLと呼ばれる新しい問題を$n$-wise比較で定式化し、PbRL問題を拡張し、この新しい設定のための最初のサンプル効率アルゴリズムを提供する。
我々の知る限りでは、これは(一般)関数近似を用いたPbRLの最初の理論的結果である。
関連論文リスト
- Offline Primal-Dual Reinforcement Learning for Linear MDPs [16.782625445546273]
オフライン強化学習(RL)は、他のポリシによって収集されたトランジションの固定データセットから、ほぼ最適なポリシを学ぶことを目的としている。
本稿では,RLの線形プログラミング定式化に基づく原始双対最適化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T11:45:23Z) - Provably Efficient Reinforcement Learning via Surprise Bound [66.15308700413814]
本稿では,一般値関数近似を用いた効率の良い強化学習アルゴリズムを提案する。
本アルゴリズムは, 線形設定と疎高次元線形設定の両方に適用した場合に, 合理的な後悔境界を達成できる。
論文 参考訳(メタデータ) (2023-02-22T20:21:25Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Markov Decision
Processes [80.89852729380425]
そこで本研究では,最小限の最小残差である$tilde O(dsqrtH3K)$を計算効率よく実現したアルゴリズムを提案する。
我々の研究は線形 MDP を用いた最適 RL に対する完全な答えを提供する。
論文 参考訳(メタデータ) (2022-12-12T18:58:59Z) - VO$Q$L: Towards Optimal Regret in Model-free RL with Nonlinear Function
Approximation [43.193807443491814]
一般関数近似とスパース報酬による時間的不均一なエピソード強化学習(RL)について検討した。
我々は,Q$-learningをベースとした新しいアルゴリズム,Variance-weighted Optimistic $Q$-Learning (VO$Q$L) を設計し,その後悔次元を完全性に限定し,回帰関数クラスに対する有界エルダーを設計する。
論文 参考訳(メタデータ) (2022-12-12T17:37:00Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Reward-Free RL is No Harder Than Reward-Aware RL in Linear Markov
Decision Processes [61.11090361892306]
Reward-free reinforcement learning (RL) は、エージェントが探索中に報酬関数にアクセスできないような環境を考える。
この分離は線形MDPの設定には存在しないことを示す。
我々は$d$次元線形 MDP における報酬のない RL に対する計算効率の良いアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-01-26T22:09:59Z) - Reinforcement Learning with General Value Function Approximation:
Provably Efficient Approach via Bounded Eluder Dimension [124.7752517531109]
一般値関数近似を用いた効率の良い強化学習アルゴリズムを確立する。
我々のアルゴリズムは、$d$が複雑性測度である場合、$widetildeO(mathrmpoly(dH)sqrtT)$の後悔の限界を達成することを示す。
我々の理論は線形値関数近似によるRLの最近の進歩を一般化し、環境モデルに対する明示的な仮定をしない。
論文 参考訳(メタデータ) (2020-05-21T17:36:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。