論文の概要: A General Framework for Sample-Efficient Function Approximation in
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2209.15634v1
- Date: Fri, 30 Sep 2022 17:59:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 14:04:16.983685
- Title: A General Framework for Sample-Efficient Function Approximation in
Reinforcement Learning
- Title(参考訳): 強化学習におけるサンプル効率関数近似のための一般フレームワーク
- Authors: Zixiang Chen, Chris Junchi Li, Angela Yuan, Quanquan Gu, Michael I.
Jordan
- Abstract要約: モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。
最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。
本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 132.45959478064736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increasing need for handling large state and action spaces, general
function approximation has become a key technique in reinforcement learning
(RL). In this paper, we propose a general framework that unifies model-based
and model-free RL, and an Admissible Bellman Characterization (ABC) class that
subsumes nearly all Markov Decision Process (MDP) models in the literature for
tractable RL. We propose a novel estimation function with decomposable
structural properties for optimization-based exploration and the functional
eluder dimension as a complexity measure of the ABC class. Under our framework,
a new sample-efficient algorithm namely OPtimization-based ExploRation with
Approximation (OPERA) is proposed, achieving regret bounds that match or
improve over the best-known results for a variety of MDP models. In particular,
for MDPs with low Witness rank, under a slightly stronger assumption, OPERA
improves the state-of-the-art sample complexity results by a factor of $dH$.
Our framework provides a generic interface to design and analyze new RL models
and algorithms.
- Abstract(参考訳): 大規模状態や行動空間を扱う必要性が高まっているため、一般関数近似は強化学習(RL)の鍵となる技術となっている。
本稿では,モデルベースとモデルフリーのrlを統一する汎用フレームワークと,ほぼすべてのマルコフ決定過程(mdp)モデルに準拠する許容ベルマンキャラクタリゼーション(abc)クラスを提案する。
ABCクラスの複雑性尺度として,最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。
本フレームワークでは,様々なMDPモデルにおいて最もよく知られた結果に一致する,あるいは改善された後悔境界を達成し,OPERA(Optimization-based Exploration with Approximation)と呼ばれる新しいサンプル効率アルゴリズムを提案する。
特に、証人ランクが低いmdpの場合、少し強い仮定の下で、operaは最先端のサンプルの複雑さを$dh$で改善する。
我々のフレームワークは、新しいRLモデルとアルゴリズムの設計と解析のための汎用インターフェースを提供する。
関連論文リスト
- Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。
本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文 参考訳(メタデータ) (2024-02-08T14:54:47Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Model-free Representation Learning and Exploration in Low-rank MDPs [64.72023662543363]
低位mdpに対して,最初のモデルフリー表現学習アルゴリズムを提案する。
主要なアルゴリズムの貢献は新しいミニマックス表現の学習の目的です。
結果は複雑な環境にスケールする一般的な関数近似を収容できます。
論文 参考訳(メタデータ) (2021-02-14T00:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。