論文の概要: Optimal Conservative Offline RL with General Function Approximation via
Augmented Lagrangian
- arxiv url: http://arxiv.org/abs/2211.00716v1
- Date: Tue, 1 Nov 2022 19:28:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 12:08:42.467477
- Title: Optimal Conservative Offline RL with General Function Approximation via
Augmented Lagrangian
- Title(参考訳): 拡張ラグランジアンによる一般関数近似を用いた最適保守オフラインRL
- Authors: Paria Rashidinejad, Hanlin Zhu, Kunhe Yang, Stuart Russell, Jiantao
Jiao
- Abstract要約: オフライン強化学習(英語: offline reinforcement learning、RL)とは、かつて収集された相互作用のデータセットから決定を下すことを指す。
一般関数近似と単一政治集中性において統計的に最適で実用的なオフラインRLアルゴリズムの最初のセットを示す。
- 参考スコア(独自算出の注目度): 18.2080757218886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL), which refers to decision-making from a
previously-collected dataset of interactions, has received significant
attention over the past years. Much effort has focused on improving offline RL
practicality by addressing the prevalent issue of partial data coverage through
various forms of conservative policy learning. While the majority of algorithms
do not have finite-sample guarantees, several provable conservative offline RL
algorithms are designed and analyzed within the single-policy concentrability
framework that handles partial coverage. Yet, in the nonlinear function
approximation setting where confidence intervals are difficult to obtain,
existing provable algorithms suffer from computational intractability,
prohibitively strong assumptions, and suboptimal statistical rates. In this
paper, we leverage the marginalized importance sampling (MIS) formulation of RL
and present the first set of offline RL algorithms that are statistically
optimal and practical under general function approximation and single-policy
concentrability, bypassing the need for uncertainty quantification. We identify
that the key to successfully solving the sample-based approximation of the MIS
problem is ensuring that certain occupancy validity constraints are nearly
satisfied. We enforce these constraints by a novel application of the augmented
Lagrangian method and prove the following result: with the MIS formulation,
augmented Lagrangian is enough for statistically optimal offline RL. In stark
contrast to prior algorithms that induce additional conservatism through
methods such as behavior regularization, our approach provably eliminates this
need and reinterprets regularizers as "enforcers of occupancy validity" than
"promoters of conservatism."
- Abstract(参考訳): オフライン強化学習(rl)は、以前収集されたインタラクションのデータセットからの意思決定を指すもので、過去数年間で大きな注目を集めている。
保守的な政策学習の様々な形態を通じて、部分的なデータカバレッジの問題に対処することで、オフラインのRL実践性の改善に多くの努力が注がれている。
ほとんどのアルゴリズムは有限サンプル保証を持っていないが、いくつかの証明可能な保守的なオフラインRLアルゴリズムは、部分的カバレッジを扱う単一政治集中フレームワーク内で設計され分析される。
しかし、信頼区間を得るのが難しい非線形関数近似では、既存の証明可能なアルゴリズムは計算の難易度、禁断的な強い仮定、そして準最適統計率に悩まされる。
本稿では,RLの限界値サンプリング(MIS)の定式化と,一般関数近似と単一政治集中性の下で統計的に最適で実用的なオフラインRLアルゴリズムのセットを,不確実な定量化の必要性を回避して提示する。
サンプルベースのMIS問題の近似をうまく解くための鍵は、ある占有率の制約がほぼ満たされることを保証することである。
拡張ラグランジアン法の新たな適用によりこれらの制約を強制し、以下の結果が証明される: MISの定式化により、拡張ラグランジアンは統計的に最適なオフラインRLに十分である。
行動正則化などの手法により保守主義を付加する先行アルゴリズムとは対照的に,本手法では,この必要性を確実に排除し,正規化要因を「保守主義の推進者」よりも「占有正当性の強化者」と再解釈する。
関連論文リスト
- CDSA: Conservative Denoising Score-based Algorithm for Offline Reinforcement Learning [25.071018803326254]
オフラインの強化学習において、分散シフトは大きな障害である。
以前の保守的なオフラインRLアルゴリズムは、目に見えないアクションに一般化するのに苦労した。
本稿では、事前学習したオフラインRLアルゴリズムから生成されたデータセット密度の勾配場を用いて、元の動作を調整することを提案する。
論文 参考訳(メタデータ) (2024-06-11T17:59:29Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Offline Reinforcement Learning with Additional Covering Distributions [0.0]
我々は,関数近似を用いて,ログ化されたデータセット,すなわちオフラインRLから最適ポリシーを学習する。
一般のMDPに対するサンプル効率のよいオフラインRLは、部分的カバレッジデータセットと弱い実現可能な関数クラスだけで実現可能であることを示す。
論文 参考訳(メタデータ) (2023-05-22T03:31:03Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Revisiting the Linear-Programming Framework for Offline RL with General
Function Approximation [24.577243536475233]
オフライン強化学習(RL)は、事前に収集されたデータセットからシーケンシャルな意思決定のための最適なポリシーを追求する。
近年の理論的進歩は、データカバレッジと関数近似器に関する様々な緩和された仮定を持つサンプル効率の良いオフラインRLアルゴリズムの開発に焦点が当てられている。
オフラインRLのための線形プログラミングフレームワークを再検討し、いくつかの面で既存の結果を前進させます。
論文 参考訳(メタデータ) (2022-12-28T15:28:12Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - Offline Reinforcement Learning: Fundamental Barriers for Value Function
Approximation [74.3002974673248]
本稿では,ログデータから意思決定方針を学習することを目的としたオフライン強化学習問題を考察する。
オンラインデータ収集は安全クリティカルなドメインに適しているため、オフラインのRLは現実的にますます重要になっている。
以上の結果から, サンプル効率の良いオフライン強化学習には, 制限的カバレッジ条件か, あるいは複雑性学習を超える表現条件が必要であることが示唆された。
論文 参考訳(メタデータ) (2021-11-21T23:22:37Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。