論文の概要: Online Reinforcement Learning with Uncertain Episode Lengths
- arxiv url: http://arxiv.org/abs/2302.03608v1
- Date: Tue, 7 Feb 2023 17:12:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-08 15:28:08.956821
- Title: Online Reinforcement Learning with Uncertain Episode Lengths
- Title(参考訳): 未確定エピソード長を用いたオンライン強化学習
- Authors: Debmalya Mandal, Goran Radanovic, Jiarui Gan, Adish Singla, Rupak
Majumdar
- Abstract要約: 本稿では,各エピソードの長さが分布から引き出されるとき,エピソード強化学習の一般的な枠組みについて考察する。
この新たな一般割引による後悔の最小化は、不確実な長さの後悔と等価であることを示す。
また, エピソード長の不確かさが不明な場合でも, 同様の後悔境界が得られることを示す。
- 参考スコア(独自算出の注目度): 31.55023147921953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing episodic reinforcement algorithms assume that the length of an
episode is fixed across time and known a priori. In this paper, we consider a
general framework of episodic reinforcement learning when the length of each
episode is drawn from a distribution. We first establish that this problem is
equivalent to online reinforcement learning with general discounting where the
learner is trying to optimize the expected discounted sum of rewards over an
infinite horizon, but where the discounting function is not necessarily
geometric. We show that minimizing regret with this new general discounting is
equivalent to minimizing regret with uncertain episode lengths. We then design
a reinforcement learning algorithm that minimizes regret with general
discounting but acts for the setting with uncertain episode lengths. We
instantiate our general bound for different types of discounting, including
geometric and polynomial discounting. We also show that we can obtain similar
regret bounds even when the uncertainty over the episode lengths is unknown, by
estimating the unknown distribution over time. Finally, we compare our learning
algorithms with existing value-iteration based episodic RL algorithms in a
grid-world environment.
- Abstract(参考訳): 既存のエピソディクス強化アルゴリズムでは、エピソードの長さは時間とともに固定され、優先順位が知られている。
本稿では,各エピソードの長さが分布から引き出される場合に,エピソディクス強化学習の一般的な枠組みを検討する。
まず、この問題はオンライン強化学習と同等であり、学習者は無限の地平線上で期待される割引報酬の和を最適化しようとするが、割引関数は必ずしも幾何学的ではない。
新たな一般割引による後悔の最小化は,不確定なエピソード長による後悔の最小化と等価であることを示す。
次に,一般割引による後悔を最小限に抑えた強化学習アルゴリズムを設計する。
幾何学的および多項式的ディスカウントを含む様々な種類のディスカウントについて、我々の一般的な境界をインスタンス化する。
また, 時間経過の未知分布を推定することにより, エピソード長の不確実性が未知であっても同様の後悔の限界が得られることを示す。
最後に,我々の学習アルゴリズムを,グリッド環境における既存の値イテレーションに基づくエピソードRLアルゴリズムと比較する。
関連論文リスト
- On the Convergence of No-Regret Learning Dynamics in Time-Varying Games [89.96815099996132]
時間変化ゲームにおける楽観的勾配降下(OGD)の収束を特徴付ける。
我々のフレームワークは、ゼロサムゲームにおけるOGDの平衡ギャップに対して鋭い収束境界をもたらす。
また,静的ゲームにおける動的後悔の保証に関する新たな洞察も提供する。
論文 参考訳(メタデータ) (2023-01-26T17:25:45Z) - Online Meta-Learning in Adversarial Multi-Armed Bandits [18.063041030179367]
オンライン・ウィズ・イン・オンライン・セットアップでは、プレイヤーが複数の武器を持ったバンディット・エピソードに遭遇する。
プレイヤーのパフォーマンスは、敵が生み出した損失に応じて、各エピソードの最高の腕に対する後悔として測定される。
この経験的分布における不均一性を生かし,問題依存の遺言境界を導出するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-31T16:10:23Z) - The Best of Both Worlds: Reinforcement Learning with Logarithmic Regret
and Policy Switches [84.54669549718075]
漸進的強化学習(RL)における後悔の最小化問題について検討する。
一般関数クラスと一般モデルクラスで学ぶことに集中する。
対数的後悔境界は$O(log T)$スイッチングコストのアルゴリズムによって実現可能であることを示す。
論文 参考訳(メタデータ) (2022-03-03T02:55:55Z) - Fast Rates for Nonparametric Online Learning: From Realizability to
Learning in Games [36.969021834291745]
本稿では,仮説クラスの逐次的脂肪散乱次元の観点から,ほぼ最適誤差を導出する固有学習アルゴリズムを提案する。
この結果は、適切な学習者が準最適誤り境界を達成できるかどうかという疑問に答える。
実数値(回帰)設定では、最適誤り境界は不適切な学習者にさえ知られていなかった。
論文 参考訳(メタデータ) (2021-11-17T05:24:21Z) - Optimism and Delays in Episodic Reinforcement Learning [5.349852254138085]
理論的観点から, エピソード強化学習における遅延フィードバックの影響について検討した。
提案手法は,状態数,アクション数,エピソード長,予測遅延数,アルゴリズム依存定数などを含む加法的項によって,後悔が増すことを示す。
論文 参考訳(メタデータ) (2021-11-15T09:06:04Z) - Beyond Value-Function Gaps: Improved Instance-Dependent Regret Bounds
for Episodic Reinforcement Learning [50.44564503645015]
有限エピソードマルコフ決定過程における強化学習のための改良されたギャップ依存的後悔境界を提供する。
楽観的なアルゴリズムでは,より強い後悔境界を証明し,多数のMDPに対して新たな情報理論的下限を伴う。
論文 参考訳(メタデータ) (2021-07-02T20:36:05Z) - Model-Free Online Learning in Unknown Sequential Decision Making
Problems and Games [114.90723492840499]
大規模な2人プレイのゼロサム情報ゲームでは、反事実後悔最小化(cfr)の現代的な拡張がnash均衡を計算するための実用的な技術である。
私たちは、戦略空間がエージェントに知られていないオンライン学習設定を形式化します。
エージェントが逆の環境に直面しても、その設定に高い確率で$O(T3/4)$後悔を達成する効率的なアルゴリズムを提供します。
論文 参考訳(メタデータ) (2021-03-08T04:03:24Z) - Online Markov Decision Processes with Aggregate Bandit Feedback [74.85532145498742]
本稿では,オンライン有限水平マルコフ決定過程の新たな変種について検討する。
各エピソードにおいて、学習者は、エピソードの選択した方針によって実現された軌道に沿って蓄積された損失を被り、総括的盗聴フィードバックを観察する。
我々の主な結果は計算効率のよいアルゴリズムで、$O(sqrtK)$ regret for this set, where $K$ is the number of episodes。
論文 参考訳(メタデータ) (2021-01-31T16:49:07Z) - Is Long Horizon Reinforcement Learning More Difficult Than Short Horizon
Reinforcement Learning? [108.94173231481355]
長い地平線を計画する学習は、エピソード強化学習問題における中心的な課題である。
長地平線RLは、少なくともミニマックス感覚において、短地平線RLよりも困難ではないことを示す。
論文 参考訳(メタデータ) (2020-05-01T17:56:38Z) - Regret Bounds for Discounted MDPs [26.37242007290973]
従来の知恵は、学習者が受ける平均報酬と最大長期報酬との差を最大化することである。
我々は$gamma$-regretと呼ばれる一連の測度を提案し、これは有限時間最適性をよりよく捉えると信じている。
論文 参考訳(メタデータ) (2020-02-12T18:30:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。