論文の概要: Delay-Adapted Policy Optimization and Improved Regret for Adversarial
MDP with Delayed Bandit Feedback
- arxiv url: http://arxiv.org/abs/2305.07911v1
- Date: Sat, 13 May 2023 12:40:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 18:49:47.755326
- Title: Delay-Adapted Policy Optimization and Improved Regret for Adversarial
MDP with Delayed Bandit Feedback
- Title(参考訳): 遅延適応型政策最適化とバンディットフィードバックによる逆mdpの後悔改善
- Authors: Tal Lancewicki, Aviv Rosenberg, Dmitry Sotnikov
- Abstract要約: 政策最適化は強化学習(RL)において最も一般的な手法の1つである
表型MDPにおけるPOに対する最寄りの後悔境界を初めて与え、最先端(効率の低い手法)を超越するかもしれない。
遅延適応PO(DAPO)は実装や一般化が容易であり、線形$Q$-関数の仮定の下で無限の状態空間に拡張することができ、関数近似による遅延フィードバックに対する最初の後悔境界を証明できる。
- 参考スコア(独自算出の注目度): 10.957528713294874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy Optimization (PO) is one of the most popular methods in Reinforcement
Learning (RL). Thus, theoretical guarantees for PO algorithms have become
especially important to the RL community. In this paper, we study PO in
adversarial MDPs with a challenge that arises in almost every real-world
application -- \textit{delayed bandit feedback}. We give the first near-optimal
regret bounds for PO in tabular MDPs, and may even surpass state-of-the-art
(which uses less efficient methods). Our novel Delay-Adapted PO (DAPO) is easy
to implement and to generalize, allowing us to extend our algorithm to: (i)
infinite state space under the assumption of linear $Q$-function, proving the
first regret bounds for delayed feedback with function approximation. (ii) deep
RL, demonstrating its effectiveness in experiments on MuJoCo domains.
- Abstract(参考訳): 政策最適化(PO)は強化学習(RL)において最も一般的な手法の1つである。
したがって、POアルゴリズムの理論的保証はRLコミュニティにとって特に重要である。
本稿では,ほぼすべての実世界のアプリケーションで発生する課題である,敵対的MDPにおけるPOについて検討する。
表形式のMDPでPOに最も近い最適後悔境界を与え、最先端(効率の低い手法)を超越する可能性さえある。
私たちの小説『Delay-Adapted PO』(DAPO)は簡単に実装でき、一般化でき、アルゴリズムを次のように拡張できます。
(i)線形$q$-関数を仮定した無限状態空間は、関数近似を用いて遅延フィードバックに対する最初の後悔の限界を証明する。
(II)MuJoCoドメインの実験において,その有効性を示した深部RL。
関連論文リスト
- No-Regret Reinforcement Learning in Smooth MDPs [24.249446550171307]
本稿では,これまで提案されてきたほとんどの設定を一般化した,決定プロセス(MDP)に関する新たな構造仮定を提案する。
本稿では,2つのアルゴリズムを用いて,$nu-$smoothnessにおける後悔の最小化を提案する。
結果とRL理論の最先端技術を比較し,アルゴリズムが最高の保証を達成することを示す。
論文 参考訳(メタデータ) (2024-02-06T08:18:14Z) - A Policy Gradient Primal-Dual Algorithm for Constrained MDPs with
Uniform PAC Guarantees [30.064420218612582]
本稿では,オンライン制約付きマルコフ決定過程(CMDP)問題に対するRLアルゴリズムについて検討する。
均一に近似した精度(Uniform-PAC)を保証する新しい勾配双対アルゴリズムを提案する。
理論的保証に加えて、我々のアルゴリズムが最適ポリシーに収束することを示す単純なCMDPを実証的に示す。
論文 参考訳(メタデータ) (2024-01-31T12:23:24Z) - Posterior Sampling with Delayed Feedback for Reinforcement Learning with
Linear Function Approximation [62.969796245827006]
Delayed-PSVI は楽観的な値に基づくアルゴリズムであり、後続サンプリングによる雑音摂動により値関数空間を探索する。
我々のアルゴリズムは、未知の遅延が存在する場合に、$widetildeO(sqrtd3H3 T + d2H2 E[tau]$最悪の後悔を実現する。
遅延LPSVIのための勾配に基づく近似サンプリングスキームをLangevin動的に組み込んだ。
論文 参考訳(メタデータ) (2023-10-29T06:12:43Z) - Submodular Reinforcement Learning [77.97471858326077]
強化学習(RL)では、状態の報酬は通常加法的と見なされ、マルコフの仮定に従って、それらは以前に訪れた状態に対して$textitindependent$である。
カバー範囲制御、実験設計、情報経路計画といった多くの重要な応用において、報酬は自然にリターンを減少させ、すなわち、それらの価値は以前に訪れた同様の状態から減少する。
減少するリターンをキャプチャするサブモジュール集合関数をモデルとした,より汎用的で非付加的(かつ履歴に依存しない)報酬を最適化するパラダイムである$textitsubmodular RL$ (SubRL)を提案する。
論文 参考訳(メタデータ) (2023-07-25T09:46:02Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Online Sub-Sampling for Reinforcement Learning with General Function
Approximation [111.01990889581243]
本稿では,RLアルゴリズムによって収集されたデータポイントの情報取得量を測定する,効率的なオンラインサブサンプリングフレームワークを確立する。
複雑性バウンド関数クラスを持つ値ベースのメソッドの場合、$proptooperatornamepolylog(K)$ timesに対してのみポリシーを更新する必要がある。
少なくとも$Omega(K)$倍のポリシーを更新する既存のアプローチとは対照的に、当社のアプローチはポリシーの解決における最適化コールの数を劇的に削減します。
論文 参考訳(メタデータ) (2021-06-14T07:36:25Z) - Queueing Network Controls via Deep Reinforcement Learning [0.0]
待ち行列ネットワークのためのポリシ最適化アルゴリズムを開発した。
このアルゴリズムは、文学における最先端よりも優れた制御ポリシーを一貫して生成する。
PPOアルゴリズムの成功の鍵は、相対値関数を推定するために3つの分散還元技術を使用することである。
論文 参考訳(メタデータ) (2020-07-31T01:02:57Z) - Implementation Matters in Deep Policy Gradients: A Case Study on PPO and
TRPO [90.90009491366273]
本稿では,2つの一般的なアルゴリズムのケーススタディにより,ディープポリシー勾配アルゴリズムにおけるアルゴリズムの進歩のルーツについて検討する。
具体的には,「コードレベルの最適化」の結果について検討する。
以上の結果から, (a) TRPOに対するPPOの累積報酬のほとんどを担っていることが示され, (b) RL メソッドの動作方法が根本的に変化していることが示唆された。
論文 参考訳(メタデータ) (2020-05-25T16:24:59Z) - Mirror Descent Policy Optimization [41.46894905097985]
MDPO (Em mirror descent Policy Optimization) と呼ばれる効率的なRLアルゴリズムを提案する。
MDPOは、信頼領域問題を概ね解決することで、ポリシーを反復的に更新する。
本稿では,オンラインMDPOと,TRPOとPPOという2つの一般的な信頼領域RLアルゴリズムの関連性を強調し,信頼領域制約を明示的に実施することは,TRPOの性能向上に必要ではないことを示す。
論文 参考訳(メタデータ) (2020-05-20T01:30:43Z) - Optimistic Policy Optimization with Bandit Feedback [70.75568142146493]
我々は,事前の報奨を後悔する$tilde O(sqrtS2 A H4 K)を定め,楽観的な信頼領域ポリシー最適化(TRPO)アルゴリズムを提案する。
我々の知る限り、この2つの結果は、未知の遷移と帯域幅フィードバックを持つポリシー最適化アルゴリズムにおいて得られた最初のサブ線形後悔境界である。
論文 参考訳(メタデータ) (2020-02-19T15:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。