論文の概要: More Benefits of Being Distributional: Second-Order Bounds for
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2402.07198v1
- Date: Sun, 11 Feb 2024 13:25:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 16:53:15.872882
- Title: More Benefits of Being Distributional: Second-Order Bounds for
Reinforcement Learning
- Title(参考訳): 分散化によるさらなるメリット - 強化学習のための2次境界
- Authors: Kaiwen Wang, Owen Oertell, Alekh Agarwal, Nathan Kallus, Wen Sun
- Abstract要約: 本研究では,分散強化学習(DistRL)がオンラインとオフラインのRLの2次境界を得ることができることを示す。
我々の結果は、低ランク MDP とオフライン RL に対する最初の2階境界である。
- 参考スコア(独自算出の注目度): 58.626683114119906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we prove that Distributional Reinforcement Learning (DistRL),
which learns the return distribution, can obtain second-order bounds in both
online and offline RL in general settings with function approximation.
Second-order bounds are instance-dependent bounds that scale with the variance
of return, which we prove are tighter than the previously known small-loss
bounds of distributional RL. To the best of our knowledge, our results are the
first second-order bounds for low-rank MDPs and for offline RL. When
specializing to contextual bandits (one-step RL problem), we show that a
distributional learning based optimism algorithm achieves a second-order
worst-case regret bound, and a second-order gap dependent bound,
simultaneously. We also empirically demonstrate the benefit of DistRL in
contextual bandits on real-world datasets. We highlight that our analysis with
DistRL is relatively simple, follows the general framework of optimism in the
face of uncertainty and does not require weighted regression. Our results
suggest that DistRL is a promising framework for obtaining second-order bounds
in general RL settings, thus further reinforcing the benefits of DistRL.
- Abstract(参考訳): 本稿では,分布強化学習(DistRL)が,関数近似を用いた一般設定において,オンラインとオフラインのRLの2次境界が得られることを示す。
2階境界は、リターンの分散と共にスケールするインスタンス依存境界であり、これは以前に知られていた分布RLの小さなロス境界よりも厳密である。
我々の知る限り、我々の結果は低ランクのMDPとオフラインのRLに対する最初の2階境界である。
文脈的帯域に特化する場合(一段階RL問題)、分布学習に基づく楽観的アルゴリズムが2次最悪の後悔境界と2次ギャップ依存境界を同時に達成することを示す。
また、実世界のデータセット上でのコンテキスト帯域におけるDistRLの利点を実証的に示す。
DistRLを用いた解析は比較的単純であり、不確実性に直面した楽観主義の一般的な枠組みに従っており、重み付け回帰を必要としない。
以上の結果から,DistRLは一般RL設定における2次境界を得る上で有望なフレームワークであることが示唆された。
関連論文リスト
- Bridging Distributionally Robust Learning and Offline RL: An Approach to
Mitigate Distribution Shift and Partial Data Coverage [32.578787778183546]
オフライン強化学習(RL)アルゴリズムは、過去の(オフライン)データを用いて最適な警察を学習する。
オフラインRLの主な課題の1つは、分散シフトである。
分散ロバスト学習(DRL)フレームワークを用いた2つのオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-27T19:19:30Z) - The Benefits of Being Distributional: Small-Loss Bounds for
Reinforcement Learning [43.9624940128166]
本稿では,分散強化学習(DistRL)の利点を,低損失領域のレンズを通して説明する。
オンラインRLでは,最大推定値を用いて信頼度を推定するDistRLアルゴリズムを提案する。
オフラインRLでは、悲観的なDistRLは、オフライン設定に新しく、かつ、悪い単一政治カバレッジに対してより堅牢な小さなPACバウンダリを享受していることが示される。
論文 参考訳(メタデータ) (2023-05-25T04:19:43Z) - One-Step Distributional Reinforcement Learning [10.64435582017292]
簡単な一段階分散強化学習(OS-DistrRL)フレームワークを提案する。
当社のアプローチには,政策評価と統制の両面での統一理論があることが示されている。
ほぼ確実に収束解析を行う2つのOS-DistrRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-27T06:57:00Z) - Dual RL: Unification and New Methods for Reinforcement and Imitation
Learning [26.59374102005998]
我々はまず,共有構造を持つ2つのRLアプローチのインスタンスとして,最先端のオフラインRLとオフライン模倣学習(IL)アルゴリズムをいくつか導入した。
本稿では、任意のオフポリシーデータから模倣を学習し、ほぼ専門的な性能を得る新しい差別化手法であるReCOILを提案する。
オフラインRLでは、最近のオフラインRLメソッドXQLをデュアルフレームワークにフレーム化し、Gumbel回帰損失に対して代替的な選択肢を提供する新しい方法f-DVLを提案する。
論文 参考訳(メタデータ) (2023-02-16T20:10:06Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - A Simple Reward-free Approach to Constrained Reinforcement Learning [33.813302183231556]
本稿では, 報酬のないRLと制約付きRLを橋渡しする。特に, 報酬のないRLオラクルが与えられた場合, アプローチ性や制約付きRL問題は, サンプル複雑性において無視できるオーバーヘッドで直接解決できる, メタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-12T06:27:30Z) - Instabilities of Offline RL with Pre-Trained Neural Representation [127.89397629569808]
オフライン強化学習(RL)では、オフラインデータを利用して、評価対象のポリシーのそれとは大きく異なる分布からデータが収集されるシナリオでポリシーを評価する(または学習する)ことを目指しています。
最近の理論的進歩は、そのようなサンプル効率の良いオフラインRLが確かにある強い表現条件が保持されることを示した。
本研究は,オフラインrlメソッドの安定性を評価するために,経験的視点からこれらの問題を考察する。
論文 参考訳(メタデータ) (2021-03-08T18:06:44Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。