論文の概要: Regret Bounds for Discounted MDPs
- arxiv url: http://arxiv.org/abs/2002.05138v3
- Date: Thu, 27 May 2021 22:32:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 19:20:51.639887
- Title: Regret Bounds for Discounted MDPs
- Title(参考訳): 割引mdpに対する後悔の限界
- Authors: Shuang Liu and Hao Su
- Abstract要約: 従来の知恵は、学習者が受ける平均報酬と最大長期報酬との差を最大化することである。
我々は$gamma$-regretと呼ばれる一連の測度を提案し、これは有限時間最適性をよりよく捉えると信じている。
- 参考スコア(独自算出の注目度): 26.37242007290973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has traditionally been understood from an
episodic perspective; the concept of non-episodic RL, where there is no restart
and therefore no reliable recovery, remains elusive. A fundamental question in
non-episodic RL is how to measure the performance of a learner and derive
algorithms to maximize such performance. Conventional wisdom is to maximize the
difference between the average reward received by the learner and the maximal
long-term average reward. In this paper, we argue that if the total time budget
is relatively limited compared to the complexity of the environment, such
comparison may fail to reflect the finite-time optimality of the learner. We
propose a family of measures, called $\gamma$-regret, which we believe to
better capture the finite-time optimality. We give motivations and derive lower
and upper bounds for such measures. Note: A follow-up work (arXiv:2010.00587)
has improved both our lower and upper bound, the gap is now closed at
$\tilde{\Theta}\left(\frac{\sqrt{SAT}}{(1 - \gamma)^{\frac{1}{2}}}\right)$.
- Abstract(参考訳): 強化学習(rl)は伝統的にエピソドックス的な視点から理解されており、再始動がなく信頼性の高い回復が得られない非緩和学習の概念はいまだに解明されていない。
非エポゾディックRLの基本的な問題は、学習者のパフォーマンスをどうやって測定し、そのような性能を最大化するアルゴリズムを導出するかである。
従来の知恵は、学習者が受ける平均報酬と最大長期報酬との差を最大化することである。
本稿では,総時間予算が環境の複雑さと比較して比較的限られている場合,学習者の有限時間最適性を反映しない可能性について考察する。
我々は「\gamma$-regret」と呼ばれる有限時間最適性をよりよく捉えた測度の族を提案する。
我々はモチベーションを与え、そのような措置の上下境界を導出する。
注: 後続の作業 (arXiv: 2010.00587) は下界と上界の両方を改善し、ギャップは $\tilde{\Theta}\left(\frac{\sqrt{SAT}}{(1 - \gamma)^{\frac{1}{2}}}\right)$ で閉じられる。
関連論文リスト
- Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - The Best of Both Worlds: Reinforcement Learning with Logarithmic Regret
and Policy Switches [84.54669549718075]
漸進的強化学習(RL)における後悔の最小化問題について検討する。
一般関数クラスと一般モデルクラスで学ぶことに集中する。
対数的後悔境界は$O(log T)$スイッチングコストのアルゴリズムによって実現可能であることを示す。
論文 参考訳(メタデータ) (2022-03-03T02:55:55Z) - First-Order Regret in Reinforcement Learning with Linear Function
Approximation: A Robust Estimation Approach [57.570201404222935]
我々は,大規模状態空間を用いた強化学習において,$mathcalO(sqrtV_1star K)$として,後悔のスケーリングが得られることを示す。
この結果を得るためには,少なくとも2乗推定に基づく既存手法は不十分であることを示す。
論文 参考訳(メタデータ) (2021-12-07T00:29:57Z) - Beyond Value-Function Gaps: Improved Instance-Dependent Regret Bounds
for Episodic Reinforcement Learning [50.44564503645015]
有限エピソードマルコフ決定過程における強化学習のための改良されたギャップ依存的後悔境界を提供する。
楽観的なアルゴリズムでは,より強い後悔境界を証明し,多数のMDPに対して新たな情報理論的下限を伴う。
論文 参考訳(メタデータ) (2021-07-02T20:36:05Z) - Agnostic Reinforcement Learning with Low-Rank MDPs and Rich Observations [79.66404989555566]
我々は、リッチな観測空間を持つより現実的な非依存的RLの設定と、近似的ポリシーを含まないような固定されたポリシーのクラス$Pi$を考える。
我々は,MDPの階数$d$の誤差が有界な設定のためのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-22T03:20:40Z) - A Generalised Inverse Reinforcement Learning Framework [24.316047317028147]
逆強化学習(英: inverse Reinforcement Learning、IRL)とは、観測された軌跡に基づいて、あるMDPベースの未知のコスト関数を推定することである。
我々は、(最大エントロピー)IRL問題の修正をもたらす将来の状態により多くの重みを与える代替の訓練損失を導入する。
私たちが考案したアルゴリズムは、複数のOpenAIジム環境において、既製のものよりも優れたパフォーマンス(および類似のトラクタビリティ)を示しました。
論文 参考訳(メタデータ) (2021-05-25T10:30:45Z) - Regret Minimization in Heavy-Tailed Bandits [12.272975892517039]
マルチアームバンディット設定における古典的後悔最小化問題を再考する。
本稿では,1次項における下界を正確に一致させる最適アルゴリズムを提案する。
我々の指数は、よく知られたトリミングまたはトリミングされた経験的平均推定値よりも速く集中していることを示す。
論文 参考訳(メタデータ) (2021-02-07T07:46:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。