論文の概要: Delay-Adapted Policy Optimization and Improved Regret for Adversarial
MDP with Delayed Bandit Feedback
- arxiv url: http://arxiv.org/abs/2305.07911v1
- Date: Sat, 13 May 2023 12:40:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 18:49:47.755326
- Title: Delay-Adapted Policy Optimization and Improved Regret for Adversarial
MDP with Delayed Bandit Feedback
- Title(参考訳): 遅延適応型政策最適化とバンディットフィードバックによる逆mdpの後悔改善
- Authors: Tal Lancewicki, Aviv Rosenberg, Dmitry Sotnikov
- Abstract要約: 政策最適化は強化学習(RL)において最も一般的な手法の1つである
表型MDPにおけるPOに対する最寄りの後悔境界を初めて与え、最先端(効率の低い手法)を超越するかもしれない。
遅延適応PO(DAPO)は実装や一般化が容易であり、線形$Q$-関数の仮定の下で無限の状態空間に拡張することができ、関数近似による遅延フィードバックに対する最初の後悔境界を証明できる。
- 参考スコア(独自算出の注目度): 10.957528713294874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy Optimization (PO) is one of the most popular methods in Reinforcement
Learning (RL). Thus, theoretical guarantees for PO algorithms have become
especially important to the RL community. In this paper, we study PO in
adversarial MDPs with a challenge that arises in almost every real-world
application -- \textit{delayed bandit feedback}. We give the first near-optimal
regret bounds for PO in tabular MDPs, and may even surpass state-of-the-art
(which uses less efficient methods). Our novel Delay-Adapted PO (DAPO) is easy
to implement and to generalize, allowing us to extend our algorithm to: (i)
infinite state space under the assumption of linear $Q$-function, proving the
first regret bounds for delayed feedback with function approximation. (ii) deep
RL, demonstrating its effectiveness in experiments on MuJoCo domains.
- Abstract(参考訳): 政策最適化(PO)は強化学習(RL)において最も一般的な手法の1つである。
したがって、POアルゴリズムの理論的保証はRLコミュニティにとって特に重要である。
本稿では,ほぼすべての実世界のアプリケーションで発生する課題である,敵対的MDPにおけるPOについて検討する。
表形式のMDPでPOに最も近い最適後悔境界を与え、最先端(効率の低い手法)を超越する可能性さえある。
私たちの小説『Delay-Adapted PO』(DAPO)は簡単に実装でき、一般化でき、アルゴリズムを次のように拡張できます。
(i)線形$q$-関数を仮定した無限状態空間は、関数近似を用いて遅延フィードバックに対する最初の後悔の限界を証明する。
(II)MuJoCoドメインの実験において,その有効性を示した深部RL。
関連論文リスト
- Warm-up Free Policy Optimization: Improved Regret in Linear Markov Decision Processes [12.76843681997386]
ポリシー最適化(PO)手法は、実際に最も人気のある強化学習(RL)アルゴリズムの一つである。
本稿では,線形マルコフ決定過程 (MDP) モデルに基づくPOアルゴリズムを提案する。
我々のアルゴリズムは、問題の他のパラメータへの依存性を改善して後悔する。
論文 参考訳(メタデータ) (2024-07-03T12:36:24Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Near-Optimal Regret in Linear MDPs with Aggregate Bandit Feedback [38.61232011566285]
本稿では,最近提案されたRLモデルとアグリゲート帯域フィードバック(RL-ABF)について検討する。
本稿では,ABFを線形関数近似に拡張し,ほぼ最適後悔保証を伴う2つの効率的なアルゴリズムを開発する。
論文 参考訳(メタデータ) (2024-05-13T10:51:01Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Surpassing legacy approaches to PWR core reload optimization with single-objective Reinforcement learning [0.0]
単目的および多目的の最適化のための深層強化学習(DRL)に基づく手法を開発した。
本稿では、PPO(Proximal Policy Optimization)を用いて、RLに基づくアプローチの利点を実証する。
PPOは学習可能なウェイトを持つポリシーで検索機能を適応し、グローバル検索とローカル検索の両方として機能する。
論文 参考訳(メタデータ) (2024-02-16T19:35:58Z) - Posterior Sampling with Delayed Feedback for Reinforcement Learning with
Linear Function Approximation [62.969796245827006]
Delayed-PSVI は楽観的な値に基づくアルゴリズムであり、後続サンプリングによる雑音摂動により値関数空間を探索する。
我々のアルゴリズムは、未知の遅延が存在する場合に、$widetildeO(sqrtd3H3 T + d2H2 E[tau]$最悪の後悔を実現する。
遅延LPSVIのための勾配に基づく近似サンプリングスキームをLangevin動的に組み込んだ。
論文 参考訳(メタデータ) (2023-10-29T06:12:43Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Online Sub-Sampling for Reinforcement Learning with General Function
Approximation [111.01990889581243]
本稿では,RLアルゴリズムによって収集されたデータポイントの情報取得量を測定する,効率的なオンラインサブサンプリングフレームワークを確立する。
複雑性バウンド関数クラスを持つ値ベースのメソッドの場合、$proptooperatornamepolylog(K)$ timesに対してのみポリシーを更新する必要がある。
少なくとも$Omega(K)$倍のポリシーを更新する既存のアプローチとは対照的に、当社のアプローチはポリシーの解決における最適化コールの数を劇的に削減します。
論文 参考訳(メタデータ) (2021-06-14T07:36:25Z) - Mirror Descent Policy Optimization [41.46894905097985]
MDPO (Em mirror descent Policy Optimization) と呼ばれる効率的なRLアルゴリズムを提案する。
MDPOは、信頼領域問題を概ね解決することで、ポリシーを反復的に更新する。
本稿では,オンラインMDPOと,TRPOとPPOという2つの一般的な信頼領域RLアルゴリズムの関連性を強調し,信頼領域制約を明示的に実施することは,TRPOの性能向上に必要ではないことを示す。
論文 参考訳(メタデータ) (2020-05-20T01:30:43Z) - Optimistic Policy Optimization with Bandit Feedback [70.75568142146493]
我々は,事前の報奨を後悔する$tilde O(sqrtS2 A H4 K)を定め,楽観的な信頼領域ポリシー最適化(TRPO)アルゴリズムを提案する。
我々の知る限り、この2つの結果は、未知の遷移と帯域幅フィードバックを持つポリシー最適化アルゴリズムにおいて得られた最初のサブ線形後悔境界である。
論文 参考訳(メタデータ) (2020-02-19T15:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。