論文の概要: Offline Reinforcement Learning with Differentiable Function
Approximation is Provably Efficient
- arxiv url: http://arxiv.org/abs/2210.00750v1
- Date: Mon, 3 Oct 2022 07:59:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 13:12:35.973201
- Title: Offline Reinforcement Learning with Differentiable Function
Approximation is Provably Efficient
- Title(参考訳): 微分関数近似を用いたオフライン強化学習はおそらく効率的である
- Authors: Ming Yin, Mengdi Wang, Yu-Xiang Wang
- Abstract要約: 歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。
微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。
最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
- 参考スコア(独自算出の注目度): 65.08966446962845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning, which aims at optimizing sequential
decision-making strategies with historical data, has been extensively applied
in real-life applications. State-Of-The-Art algorithms usually leverage
powerful function approximators (e.g. neural networks) to alleviate the sample
complexity hurdle for better empirical performances. Despite the successes, a
more systematic understanding of the statistical complexity for function
approximation remains lacking. Towards bridging the gap, we take a step by
considering offline reinforcement learning with differentiable function class
approximation (DFA). This function class naturally incorporates a wide range of
models with nonlinear/nonconvex structures. Most importantly, we show offline
RL with differentiable function approximation is provably efficient by
analyzing the pessimistic fitted Q-learning (PFQL) algorithm, and our results
provide the theoretical basis for understanding a variety of practical
heuristics that rely on Fitted Q-Iteration style design. In addition, we
further improve our guarantee with a tighter instance-dependent
characterization. We hope our work could draw interest in studying
reinforcement learning with differentiable function approximation beyond the
scope of current research.
- Abstract(参考訳): 歴史データを用いた逐次意思決定戦略の最適化を目的としたオフライン強化学習は, 現実の応用に広く応用されている。
state-of-the-artアルゴリズムは通常、強力な関数近似(ニューラルネットワークなど)を利用して、サンプル複雑性のハードルを緩和し、よりよい経験的パフォーマンスを実現する。
成功にもかかわらず、関数近似の統計複雑性に関するより体系的な理解はいまだに欠けている。
ギャップの橋渡しに向けて,微分可能関数クラス近似(dfa)を用いたオフライン強化学習を考える。
この関数クラスは自然に非線形/非凸構造を持つ幅広いモデルを含む。
最も重要なのは,悲観的適合型q-learning (pfql) アルゴリズムを解析することにより,微分可能な関数近似を持つオフラインrlが効果的であることを示し,q-iterationスタイル設計に依存する様々な実用的ヒューリスティックスを理解するための理論的基礎を提供する。
さらに,より厳密なインスタンス依存型キャラクタリゼーションによって,保証をさらに改善します。
我々の研究が、現在の研究範囲を超えて、異なる機能近似による強化学習の研究に興味を惹きつけることを願っている。
関連論文リスト
- Minimax Optimal and Computationally Efficient Algorithms for Distributionally Robust Offline Reinforcement Learning [6.969949986864736]
分散ロバストなオフライン強化学習(RL)は、力学の不確実性をモデル化することによって環境摂動に対する堅牢な政策訓練を求める。
関数近似を実現するために,最小限の最適化と計算効率のアルゴリズムを提案する。
その結果、ロバストなオフラインRLの関数近似は、標準のオフラインRLと本質的に異なり、おそらくは難しいことが判明した。
論文 参考訳(メタデータ) (2024-03-14T17:55:10Z) - Pessimistic Nonlinear Least-Squares Value Iteration for Offline Reinforcement Learning [53.97335841137496]
非線形関数近似を用いたオフラインRLにおけるPNLSVI(Pessimistic Least-Square Value Iteration)と呼ばれるオラクル効率のアルゴリズムを提案する。
本アルゴリズムは,関数クラスの複雑性に強く依存する後悔境界を享受し,線形関数近似に特化して最小限のインスタンス依存後悔を実現する。
論文 参考訳(メタデータ) (2023-10-02T17:42:01Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - FAStEN: An Efficient Adaptive Method for Feature Selection and Estimation in High-Dimensional Functional Regressions [7.674715791336311]
本稿では,スパース関数オン・ファンクション回帰問題において特徴選択を行うための,新しい,柔軟な,超効率的なアプローチを提案する。
我々はそれをスカラー・オン・ファンクション・フレームワークに拡張する方法を示す。
AOMIC PIOP1による脳MRIデータへの応用について述べる。
論文 参考訳(メタデータ) (2023-03-26T19:41:17Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Near-optimal Offline Reinforcement Learning with Linear Representation:
Leveraging Variance Information with Pessimism [65.46524775457928]
オフライン強化学習は、オフライン/歴史的データを活用して、シーケンシャルな意思決定戦略を最適化しようとしている。
線形モデル表現を用いたオフライン強化学習の統計的限界について検討する。
論文 参考訳(メタデータ) (2022-03-11T09:00:12Z) - Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。
特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。
我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-22T03:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。