論文の概要: Provably Efficient Offline Goal-Conditioned Reinforcement Learning with
General Function Approximation and Single-Policy Concentrability
- arxiv url: http://arxiv.org/abs/2302.03770v2
- Date: Wed, 11 Oct 2023 21:42:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 15:46:02.363343
- Title: Provably Efficient Offline Goal-Conditioned Reinforcement Learning with
General Function Approximation and Single-Policy Concentrability
- Title(参考訳): 汎用関数近似と単一ポリシー集中性を用いたオフライン目標条件強化学習
- Authors: Hanlin Zhu, Amy Zhang
- Abstract要約: ゴール条件強化学習(ゴール条件強化学習、GCRL)とは、様々な目標を達成するための汎用スキルの学習である。
オフラインのGCRLは、トレーニングタスクを実行するために純粋にコンパイル済みのデータセットのみを必要とする。
修正されたオフラインGCRLアルゴリズムは、一般関数近似と単一政治集中性の両方で有効であることを示す。
- 参考スコア(独自算出の注目度): 11.786486763236104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Goal-conditioned reinforcement learning (GCRL) refers to learning
general-purpose skills that aim to reach diverse goals. In particular, offline
GCRL only requires purely pre-collected datasets to perform training tasks
without additional interactions with the environment. Although offline GCRL has
become increasingly prevalent and many previous works have demonstrated its
empirical success, the theoretical understanding of efficient offline GCRL
algorithms is not well established, especially when the state space is huge and
the offline dataset only covers the policy we aim to learn. In this paper, we
provide a rigorous theoretical analysis of an existing empirically successful
offline GCRL algorithm. We prove that under slight modification, this algorithm
enjoys an $\widetilde{O}(\text{poly}(1/\epsilon))$ sample complexity (where
$\epsilon$ is the desired suboptimality of the learned policy) with general
function approximation thanks to the property of (semi-)strong convexity of the
objective functions. We only require nearly minimal assumptions on the dataset
(single-policy concentrability) and the function class (realizability).
Moreover, this algorithm consists of two uninterleaved optimization steps,
which we refer to as $V$-learning and policy learning, and is computationally
stable since it does not involve minimax optimization. We also empirically
validate our theory by showing that the modified algorithm outperforms the
previous algorithm in various real-world environments. To the best of our
knowledge, this is the first algorithm that is both provably efficient with
general function approximation and single-policy concentrability, and
empirically successful without requiring solving minimax optimization problems.
- Abstract(参考訳): ゴール条件強化学習(ゴール条件強化学習、GCRL)とは、様々な目標を達成するための汎用スキルの学習である。
特にオフラインのGCRLは、環境と追加のインタラクションなしでトレーニングタスクを実行するために、純粋にコンパイル済みのデータセットのみを必要とする。
オフラインGCRLはますます普及し、多くの先行研究がその実証的な成功を示しているが、効率的なオフラインGCRLアルゴリズムの理論的理解は、特に状態空間が巨大でオフラインデータセットが私たちが学ぼうとしているポリシーのみをカバーする場合、十分に確立されていない。
本稿では,既存の実験的に成功したオフラインgcrlアルゴリズムの厳密な理論的解析を行う。
このアルゴリズムは、わずかな修正の下で、目的関数の(半)強凸性の性質により一般関数近似を伴うサンプル複雑性(ここでは、学習されたポリシーの最適値として$\epsilon$が望ましい)を$\widetilde{O}(\text{poly}(1/\epsilon)$で楽しむことを証明している。
データセット(single-policy concentrability)と関数クラス(realizability)の仮定をほとんど必要としない。
さらに、このアルゴリズムは2つの非インターリーブ最適化ステップで構成されており、これは$v$-learning と policy learning と呼ばれ、minimax最適化を含まないので計算的に安定である。
また,様々な実環境において,修正アルゴリズムが従来のアルゴリズムよりも優れていることを示すことにより,この理論を実証的に検証した。
我々の知る限りでは、このアルゴリズムは一般関数近似と単一ポリシー集中性の両方で実現可能であり、ミニマックス最適化問題を解くことなく経験的に成功した最初のアルゴリズムである。
関連論文リスト
- Offline Imitation Learning from Multiple Baselines with Applications to Compiler Optimization [17.729842629392742]
我々は,Kベースラインポリシーで収集した一連のトラジェクトリを与えられる強化学習問題について検討する。
目標は、状態空間全体におけるベースラインの最高の組み合わせと同様に、機能するポリシーを学ぶことです。
論文 参考訳(メタデータ) (2024-03-28T14:34:02Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Importance Weighted Actor-Critic for Optimal Conservative Offline
Reinforcement Learning [23.222448307481073]
データカバレッジが不十分な複雑な環境でのオフライン強化学習(RL)のための新しい実践的アルゴリズムを提案する。
本アルゴリズムは,重要度抽出フレームワークとアクター批判パラダイムを併用する。
提案アルゴリズムの有効性を検証するため,理論的解析と実験結果の両方を提供する。
論文 参考訳(メタデータ) (2023-01-30T07:53:53Z) - CACTO: Continuous Actor-Critic with Trajectory Optimization -- Towards
global optimality [5.0915256711576475]
本稿では,Tlayy(TO)とReinforcement Learning(RL)を1つの軌道で組み合わせた,動的システムの連続制御のための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-12T10:16:35Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Upside-Down Reinforcement Learning Can Diverge in Stochastic
Environments With Episodic Resets [4.126347193869613]
Upside-Down Reinforcement Learning (UDRL)は、価値関数を必要としない問題を解決するためのアプローチである。
Goal-Conditional Supervised Learning (GCSL)は目標達成性能の低い境界を最適化した。
これにより、任意の環境における最適ポリシーへの保証された収束を享受できるという期待が高まる。
論文 参考訳(メタデータ) (2022-05-13T12:43:25Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Offline Reinforcement Learning: Fundamental Barriers for Value Function
Approximation [74.3002974673248]
本稿では,ログデータから意思決定方針を学習することを目的としたオフライン強化学習問題を考察する。
オンラインデータ収集は安全クリティカルなドメインに適しているため、オフラインのRLは現実的にますます重要になっている。
以上の結果から, サンプル効率の良いオフライン強化学習には, 制限的カバレッジ条件か, あるいは複雑性学習を超える表現条件が必要であることが示唆された。
論文 参考訳(メタデータ) (2021-11-21T23:22:37Z) - Online Sub-Sampling for Reinforcement Learning with General Function
Approximation [111.01990889581243]
本稿では,RLアルゴリズムによって収集されたデータポイントの情報取得量を測定する,効率的なオンラインサブサンプリングフレームワークを確立する。
複雑性バウンド関数クラスを持つ値ベースのメソッドの場合、$proptooperatornamepolylog(K)$ timesに対してのみポリシーを更新する必要がある。
少なくとも$Omega(K)$倍のポリシーを更新する既存のアプローチとは対照的に、当社のアプローチはポリシーの解決における最適化コールの数を劇的に削減します。
論文 参考訳(メタデータ) (2021-06-14T07:36:25Z) - Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。
特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。
我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-22T03:16:33Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。