論文の概要: Provably Feedback-Efficient Reinforcement Learning via Active Reward
Learning
- arxiv url: http://arxiv.org/abs/2304.08944v1
- Date: Tue, 18 Apr 2023 12:36:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 14:49:52.987836
- Title: Provably Feedback-Efficient Reinforcement Learning via Active Reward
Learning
- Title(参考訳): アクティブリワード学習によるフィードバック効率の良い強化学習
- Authors: Dingwen Kong, Lin F. Yang
- Abstract要約: 報酬関数は、強化学習(RL)における課題を特定する上で、最重要である。
HiL(Human-in-the-loop) RLは、さまざまなフィードバックを提供することで、複雑な目標をRLエージェントに伝達することを可能にする。
報奨関数を指定せずに環境を探索する能動的学習に基づくRLアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 26.067411894141863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An appropriate reward function is of paramount importance in specifying a
task in reinforcement learning (RL). Yet, it is known to be extremely
challenging in practice to design a correct reward function for even simple
tasks. Human-in-the-loop (HiL) RL allows humans to communicate complex goals to
the RL agent by providing various types of feedback. However, despite achieving
great empirical successes, HiL RL usually requires too much feedback from a
human teacher and also suffers from insufficient theoretical understanding. In
this paper, we focus on addressing this issue from a theoretical perspective,
aiming to provide provably feedback-efficient algorithmic frameworks that take
human-in-the-loop to specify rewards of given tasks. We provide an
active-learning-based RL algorithm that first explores the environment without
specifying a reward function and then asks a human teacher for only a few
queries about the rewards of a task at some state-action pairs. After that, the
algorithm guarantees to provide a nearly optimal policy for the task with high
probability. We show that, even with the presence of random noise in the
feedback, the algorithm only takes $\widetilde{O}(H{{\dim_{R}^2}})$ queries on
the reward function to provide an $\epsilon$-optimal policy for any $\epsilon >
0$. Here $H$ is the horizon of the RL environment, and $\dim_{R}$ specifies the
complexity of the function class representing the reward function. In contrast,
standard RL algorithms require to query the reward function for at least
$\Omega(\operatorname{poly}(d, 1/\epsilon))$ state-action pairs where $d$
depends on the complexity of the environmental transition.
- Abstract(参考訳): 適切な報酬関数は強化学習(rl)におけるタスクの特定において最重要である。
しかし、単純なタスクでも正しい報酬関数を設計することは、実際は非常に難しいことが知られている。
HiL(Human-in-the-loop) RLでは、さまざまなフィードバックを提供することで、複雑な目標をRLエージェントに伝達することができる。
しかし、実験的な成功にもかかわらず、HiL RLは通常、人間の教師からの多くのフィードバックを必要とし、理論的な理解が不十分である。
本稿では,この課題を理論的観点から解決することに集中し,与えられたタスクの報酬を特定するために人為的なアルゴリズムフレームワークを提供することを目的とする。
本稿では,まず報酬関数を指定せずに環境を探索する能動的学習に基づくRLアルゴリズムを提案する。
その後、アルゴリズムは高い確率でタスクにほぼ最適なポリシーを提供することを保証する。
フィードバックにランダムノイズがある場合でも、そのアルゴリズムは報酬関数上の$\widetilde{O}(H{{\dim_{R}^2}})$クエリのみを要し、任意の$\epsilon > 0$に対して$\epsilon$-Optimal Policyを提供する。
ここで$H$はRL環境の地平線であり、$\dim_{R}$は報酬関数を表す関数クラスの複雑さを指定する。
対照的に、標準的なRLアルゴリズムでは、少なくとも$\Omega(\operatorname{poly}(d, 1/\epsilon))$ 状態-作用対に対して、$d$は環境遷移の複雑さに依存する。
関連論文リスト
- Uncertainty-Aware Reward-Free Exploration with General Function Approximation [69.27868448449755]
本稿では、algと呼ばれる報酬のない強化学習アルゴリズムを提案する。
私たちのアルゴリズムの背後にある重要なアイデアは、環境を探索する上で不確実性を認識した本質的な報酬である。
実験の結果、GFA-RFEは最先端の教師なしRLアルゴリズムよりも優れ、あるいは同等であることがわかった。
論文 参考訳(メタデータ) (2024-06-24T01:37:18Z) - Minimax-Optimal Reward-Agnostic Exploration in Reinforcement Learning [17.239062061431646]
本稿では,強化学習(RL)における報酬非依存探索について検討する。
S$状態、$A$作用、および水平長$H$を持つ有限水平不均一決定過程を考える。
我々のアルゴリズムは任意の数の報酬関数に対して$varepsilon$精度を得ることができる。
論文 参考訳(メタデータ) (2023-04-14T17:46:49Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Online Sub-Sampling for Reinforcement Learning with General Function
Approximation [111.01990889581243]
本稿では,RLアルゴリズムによって収集されたデータポイントの情報取得量を測定する,効率的なオンラインサブサンプリングフレームワークを確立する。
複雑性バウンド関数クラスを持つ値ベースのメソッドの場合、$proptooperatornamepolylog(K)$ timesに対してのみポリシーを更新する必要がある。
少なくとも$Omega(K)$倍のポリシーを更新する既存のアプローチとは対照的に、当社のアプローチはポリシーの解決における最適化コールの数を劇的に削減します。
論文 参考訳(メタデータ) (2021-06-14T07:36:25Z) - Active Finite Reward Automaton Inference and Reinforcement Learning
Using Queries and Counterexamples [31.31937554018045]
深部強化学習(RL)法は, 良好な性能を達成するために, 環境探索からの集中的なデータを必要とする。
本稿では,RLエージェントが探索過程を推論し,その将来的な探索を効果的に導くための高レベルの知識を蒸留するフレームワークを提案する。
具体的には、L*学習アルゴリズムを用いて、有限報酬オートマトンという形で高レベルの知識を学習する新しいRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-28T21:13:08Z) - On Reward-Free Reinforcement Learning with Linear Function Approximation [144.4210285338698]
Reward-free reinforcement learning (RL) は、バッチRL設定と多くの報酬関数がある設定の両方に適したフレームワークである。
本研究では,線形関数近似を用いた報酬のないRLに対して,正と負の両方の結果を与える。
論文 参考訳(メタデータ) (2020-06-19T17:59:36Z) - Task-agnostic Exploration in Reinforcement Learning [35.403304641170386]
タスクに依存しない効率的な強化学習アルゴリズムtextscUCBZero を提案する。
少なくとも$tilde O(log(N)H5SA/epsilon2)$ Exploring episodesの後、$N$の任意のタスクに対して$epsilon$-optimal Policyを見つける。
また、$Omega(log (N)H2SA/epsilon2)$ lower boundを提供し、$N$への$log$依存性が避けられないことを示す。
論文 参考訳(メタデータ) (2020-06-16T20:23:41Z) - Reward-Free Exploration for Reinforcement Learning [82.3300753751066]
探索の課題を分離する「逆フリーなRL」フレームワークを提案する。
我々は,$tildemathcalO(S2Amathrmpoly(H)/epsilon2)$の探索を効率的に行うアルゴリズムを提案する。
また、ほぼ一致する$Omega(S2AH2/epsilon2)$ lower boundを与え、この設定でアルゴリズムのほぼ最適性を示す。
論文 参考訳(メタデータ) (2020-02-07T14:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。