論文の概要: The Benefits of Being Distributional: Small-Loss Bounds for
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.15703v3
- Date: Sat, 23 Sep 2023 03:31:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 02:29:25.750587
- Title: The Benefits of Being Distributional: Small-Loss Bounds for
Reinforcement Learning
- Title(参考訳): 分布的であることの利点:強化学習のための小損失限度
- Authors: Kaiwen Wang and Kevin Zhou and Runzhe Wu and Nathan Kallus and Wen Sun
- Abstract要約: 本稿では,分散強化学習(DistRL)の利点を,低損失領域のレンズを通して説明する。
オンラインRLでは,最大推定値を用いて信頼度を推定するDistRLアルゴリズムを提案する。
オフラインRLでは、悲観的なDistRLは、オフライン設定に新しく、かつ、悪い単一政治カバレッジに対してより堅牢な小さなPACバウンダリを享受していることが示される。
- 参考スコア(独自算出の注目度): 43.9624940128166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While distributional reinforcement learning (DistRL) has been empirically
effective, the question of when and why it is better than vanilla,
non-distributional RL has remained unanswered. This paper explains the benefits
of DistRL through the lens of small-loss bounds, which are instance-dependent
bounds that scale with optimal achievable cost. Particularly, our bounds
converge much faster than those from non-distributional approaches if the
optimal cost is small. As warmup, we propose a distributional contextual bandit
(DistCB) algorithm, which we show enjoys small-loss regret bounds and
empirically outperforms the state-of-the-art on three real-world tasks. In
online RL, we propose a DistRL algorithm that constructs confidence sets using
maximum likelihood estimation. We prove that our algorithm enjoys novel
small-loss PAC bounds in low-rank MDPs. As part of our analysis, we introduce
the $\ell_1$ distributional eluder dimension which may be of independent
interest. Then, in offline RL, we show that pessimistic DistRL enjoys
small-loss PAC bounds that are novel to the offline setting and are more robust
to bad single-policy coverage.
- Abstract(参考訳): 分散強化学習(DistRL)は実験的に有効であるが,バニラよりもいつ,なぜ優れているのかという疑問が残るが,非分布RLは未解決のままである。
本稿では,DistRLの利点を,最適な達成可能なコストでスケールするインスタンス依存境界のレンズを用いて説明する。
特に、最適コストが小さい場合、我々の境界は非分配的アプローチよりもはるかに早く収束する。
ウォームアップとして,分散文脈帯域幅(DistCB)アルゴリズムを提案する。
オンラインRLでは,最大推定値を用いて信頼度を推定するDistRLアルゴリズムを提案する。
提案アルゴリズムは,低ランクMPPにおいて,新しい低損失PAC境界を満足することを示す。
分析の一部として、独立興味を持つかもしれない$\ell_1$ 分布的eluder次元を導入する。
そして,オフラインrlでは,悲観的なdistrlがオフライン設定に新しく,悪質な単一政治カバレッジに対してより強固な小さなパック境界を享受していることを示す。
関連論文リスト
- Order-Optimal Instance-Dependent Bounds for Offline Reinforcement Learning with Preference Feedback [56.6950165117658]
我々は、暗黙の報酬が未知パラメータの線形関数である、好みフィードバックによるオフライン強化学習について検討する。
そこで我々は,UnderlineLocally Underline Underline Weights あるいは sc RL-LOW を用いたアルゴリズムを提案する。
我々は,sc RL-LOWの次数次最適性を示すため,単純な後悔マッチングの指数において,下限と上限が順序的に一致することが観察された。
論文 参考訳(メタデータ) (2024-06-18T02:03:12Z) - More Benefits of Being Distributional: Second-Order Bounds for
Reinforcement Learning [58.626683114119906]
本研究では,分散強化学習(DistRL)がオンラインとオフラインのRLの2次境界を得ることができることを示す。
我々の結果は、低ランク MDP とオフライン RL に対する最初の2階境界である。
論文 参考訳(メタデータ) (2024-02-11T13:25:53Z) - Bridging Distributional and Risk-sensitive Reinforcement Learning with
Provable Regret Bounds [24.571530193140916]
エントロピーリスク尺度(EntRM)が目的である有限エピソードマルコフ決定過程を考察する。
モデルフリーとモデルベースを含む2つの異なるスキームを用いて最適化を実装する2つの新しいDRLアルゴリズムを提案する。
いずれも$tildemathcalO(fracexp(|beta|H)-1|beta|HsqrtS2AK)$ regret upper bound, where $S$, $A$, $K$, $H$は数値を表す。
論文 参考訳(メタデータ) (2022-10-25T14:30:48Z) - Optimistic PAC Reinforcement Learning: the Instance-Dependent View [24.256960622176305]
PAC RL, BPI-UCRL に対する楽観的アルゴリズムを提案する。
私たちの限界は、最小の訪問確率を特徴としていますが、それはまた、準最適ギャップという洗練された概念も特徴です。
決定論的遷移を持つMDPでは、BPI-UCRLが実際にはほぼ最適であることを示す。
論文 参考訳(メタデータ) (2022-07-12T21:35:03Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Settling the Communication Complexity for Distributed Offline
Reinforcement Learning [10.315054389907031]
オフライン強化学習(RL)において,複数の分散マシンが協調して問題解決を行う新たな環境について検討する。
各マシンが送信できる情報の総数(ビット数)には予算の制約がある。
文脈的包帯における値関数の予測と, エピソード的および非エピソード的MDPの双方に対して, ミニマックスリスクに対する情報理論的下限を確立する。
論文 参考訳(メタデータ) (2022-02-10T06:27:07Z) - Reward-Free RL is No Harder Than Reward-Aware RL in Linear Markov
Decision Processes [61.11090361892306]
Reward-free reinforcement learning (RL) は、エージェントが探索中に報酬関数にアクセスできないような環境を考える。
この分離は線形MDPの設定には存在しないことを示す。
我々は$d$次元線形 MDP における報酬のない RL に対する計算効率の良いアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-01-26T22:09:59Z) - Online Sub-Sampling for Reinforcement Learning with General Function
Approximation [111.01990889581243]
本稿では,RLアルゴリズムによって収集されたデータポイントの情報取得量を測定する,効率的なオンラインサブサンプリングフレームワークを確立する。
複雑性バウンド関数クラスを持つ値ベースのメソッドの場合、$proptooperatornamepolylog(K)$ timesに対してのみポリシーを更新する必要がある。
少なくとも$Omega(K)$倍のポリシーを更新する既存のアプローチとは対照的に、当社のアプローチはポリシーの解決における最適化コールの数を劇的に削減します。
論文 参考訳(メタデータ) (2021-06-14T07:36:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。