論文の概要: On Representation Complexity of Model-based and Model-free Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2310.01706v1
- Date: Tue, 3 Oct 2023 00:01:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 18:17:40.065508
- Title: On Representation Complexity of Model-based and Model-free Reinforcement
Learning
- Title(参考訳): モデルベースおよびモデルフリー強化学習の表現複雑性について
- Authors: Hanlin Zhu, Baihe Huang, Stuart Russell
- Abstract要約: 回路複雑性の文脈におけるモデルベースおよびモデルフリー強化学習(RL)の表現複雑性について検討した。
理論的には、その基底となる遷移関数と報酬関数が、大きさの一定深さの回路で表現できるような、幅広い種類のMDPが存在することを証明している。
近似誤差に注意を向け、複雑性理論への接続を構築することによって、モデルベースのアルゴリズムが、新しい表現複雑性の観点からモデルフリーアルゴリズムよりも、なぜサンプルの複雑さを楽しむのかというユニークな洞察を提供する。
- 参考スコア(独自算出の注目度): 11.843778337443824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the representation complexity of model-based and model-free
reinforcement learning (RL) in the context of circuit complexity. We prove
theoretically that there exists a broad class of MDPs such that their
underlying transition and reward functions can be represented by constant depth
circuits with polynomial size, while the optimal $Q$-function suffers an
exponential circuit complexity in constant-depth circuits. By drawing attention
to the approximation errors and building connections to complexity theory, our
theory provides unique insights into why model-based algorithms usually enjoy
better sample complexity than model-free algorithms from a novel representation
complexity perspective: in some cases, the ground-truth rule (model) of the
environment is simple to represent, while other quantities, such as
$Q$-function, appear complex. We empirically corroborate our theory by
comparing the approximation error of the transition kernel, reward function,
and optimal $Q$-function in various Mujoco environments, which demonstrates
that the approximation errors of the transition kernel and reward function are
consistently lower than those of the optimal $Q$-function. To the best of our
knowledge, this work is the first to study the circuit complexity of RL, which
also provides a rigorous framework for future research.
- Abstract(参考訳): 回路複雑性の文脈におけるモデルベースおよびモデルフリー強化学習(RL)の表現複雑性について検討した。
理論的には、その基礎となる遷移関数と報酬関数が多項式サイズの定数深さ回路で表現できるようなmdpの幅広いクラスが存在することが証明され、一方最適な$q$-関数は定数深さ回路において指数関数回路複雑性を被る。
近似誤差に注意を向け、複雑性理論への接続を構築することによって、モデルベースのアルゴリズムが、新しい表現複雑性の観点から、モデルフリーなアルゴリズムよりも、通常より良いサンプル複雑性を享受する理由に関するユニークな洞察を与えます。
我々は, 遷移カーネルの近似誤差, 報酬関数, 最適$Q$-関数を様々なムジョコ環境において比較することにより, 理論を実証的に相関させ, 遷移カーネルと報酬関数の近似誤差が最適$Q$-関数よりも一貫して低いことを示す。
我々の知る限りでは、この研究はRLの回路複雑性を初めて研究し、将来の研究のための厳密な枠組みも提供する。
関連論文リスト
- Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。
本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文 参考訳(メタデータ) (2024-02-08T14:54:47Z) - The Complexity of Being Entangled [0.0]
ニールセンの量子状態複雑性へのアプローチは、一元変換の多様体上の特定のノルムで計算された測地線の長さに状態を作るのに必要な最小の量子ゲート数に関係している。
バイパーティイトシステムでは,単一サブシステムに作用するゲートがコストがかからないノルムに対応する結合複雑性について検討する。
論文 参考訳(メタデータ) (2023-11-07T19:00:02Z) - Sample Complexity of Variance-reduced Distributionally Robust Q-learning [17.96094201655567]
本稿では,分散性に頑健なQ-ラーニングアルゴリズムと,分散性に欠けるロバストなポリシーを効果的に学習できる分散性のあるQ-ラーニングアルゴリズムを2つ提案する。
一連の数値実験により、分布シフトの処理におけるアルゴリズムの理論的発見と効率性が確認された。
論文 参考訳(メタデータ) (2023-05-28T19:40:46Z) - Sample Complexity of Kernel-Based Q-Learning [11.32718794195643]
任意に大規模に割引されたMDPにおいて,$epsilon$-optimal Policyを求める非パラメトリックQ-ラーニングアルゴリズムを提案する。
我々の知る限りでは、このような一般モデルの下では、有限サンプルの複雑さを示す最初の結果である。
論文 参考訳(メタデータ) (2023-02-01T19:46:25Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z) - A General Framework for Sample-Efficient Function Approximation in
Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。
最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。
本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:16Z) - PAC Reinforcement Learning for Predictive State Representations [60.00237613646686]
部分的に観察可能な力学系におけるオンライン強化学習(RL)について検討する。
我々は、他のよく知られたモデルをキャプチャする表現モデルである予測状態表現(PSR)モデルに焦点を当てる。
我々は,サンプル複雑性のスケーリングにおいて,ほぼ最適なポリシを学習可能な,PSRのための新しいモデルベースアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-07-12T17:57:17Z) - Bilinear Classes: A Structural Framework for Provable Generalization in
RL [119.42509700822484]
Bilinear Classesは強化学習の一般化を可能にする新しい構造フレームワークである。
このフレームワークは、サンプルの複雑さが達成可能な、ほとんどすべての既存のモデルを取り込んでいる。
我々の主な成果は、双線形クラスのためのサンプル複雑性を持つRLアルゴリズムである。
論文 参考訳(メタデータ) (2021-03-19T16:34:20Z) - On Function Approximation in Reinforcement Learning: Optimism in the
Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。
特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。
私たちの後悔の限界はエピソードの数とは無関係です。
論文 参考訳(メタデータ) (2020-11-09T18:32:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。