論文の概要: An Analysis of Model-Based Reinforcement Learning From Abstracted
Observations
- arxiv url: http://arxiv.org/abs/2208.14407v3
- Date: Wed, 15 Nov 2023 12:39:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 21:16:31.455963
- Title: An Analysis of Model-Based Reinforcement Learning From Abstracted
Observations
- Title(参考訳): 抽象観測によるモデルに基づく強化学習の分析
- Authors: Rolf A. N. Starre, Marco Loog, Elena Congeduti, Frans A. Oliehoek
- Abstract要約: オンラインで収集したサンプル(例えば実世界のサンプル)とモデルベース強化学習(MBRL)の結果の依存関係を抽象化することで実現可能であることを示す。
我々はこの問題を克服するためにマルティンガレの濃度不等式を使用できることを示す。
原型的MBRLアルゴリズムであるR-MAXと抽象化を組み合わせることで、モデルベースの「抽象観測からのRL」に対する最初の性能保証を生成する。
- 参考スコア(独自算出の注目度): 24.964038353043918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many methods for Model-based Reinforcement learning (MBRL) in Markov decision
processes (MDPs) provide guarantees for both the accuracy of the model they can
deliver and the learning efficiency. At the same time, state abstraction
techniques allow for a reduction of the size of an MDP while maintaining a
bounded loss with respect to the original problem. Therefore, it may come as a
surprise that no such guarantees are available when combining both techniques,
i.e., where MBRL merely observes abstract states. Our theoretical analysis
shows that abstraction can introduce a dependence between samples collected
online (e.g., in the real world). That means that, without taking this
dependence into account, results for MBRL do not directly extend to this
setting. Our result shows that we can use concentration inequalities for
martingales to overcome this problem. This result makes it possible to extend
the guarantees of existing MBRL algorithms to the setting with abstraction. We
illustrate this by combining R-MAX, a prototypical MBRL algorithm, with
abstraction, thus producing the first performance guarantees for model-based
'RL from Abstracted Observations': model-based reinforcement learning with an
abstract model.
- Abstract(参考訳): マルコフ決定プロセス(MDP)におけるモデルベース強化学習(MBRL)の多くの方法は、提供可能なモデルの精度と学習効率の両方を保証する。
同時に、状態抽象化技術は、元の問題に関して境界損失を維持しながら、MDPのサイズを縮小することができる。
したがって、MBRLが抽象状態のみを観測する場合、両方の技術を組み合わせる際にそのような保証が得られないことは驚きである。
理論解析の結果,抽象概念は(実世界など)オンラインで収集されたサンプル間の依存性をもたらすことが判明した。
つまり、この依存を考慮に入れなければ、MBRLの結果は直接この設定に拡張されない。
その結果,martingalesの濃度不等式を用いてこの問題を克服できることがわかった。
これにより、既存のMBRLアルゴリズムの保証を抽象化した設定にまで拡張することができる。
モデルに基づく強化学習(RL from Abstracted Observations)と抽象モデルを用いたモデルベース強化学習(RL from Abstracted Observations)の初となる性能保証を生成する。
関連論文リスト
- Offline Model-Based Reinforcement Learning with Anti-Exploration [0.0]
モースモデルに基づくオフラインRL(MoMo)を提案する。
MoMoは、価値過大評価に対抗するために、アンチ探索ボーナスを使用してオフラインで強化学習を行う。
後者は、テストされたD4RLデータセットの大部分で、モデルベースとモデルフリーのベースラインを上回っている。
論文 参考訳(メタデータ) (2024-08-20T10:29:21Z) - Exploiting Multiple Abstractions in Episodic RL via Reward Shaping [23.61187560936501]
対象領域の下位にあるマルコフ決定過程(MDP)の抽象層の線形階層について考察する。
本稿では,抽象レベルで得られる解を用いて,より具体的なMDPに報酬を与える方法を提案する。
論文 参考訳(メタデータ) (2023-02-28T13:22:29Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - Causal Dynamics Learning for Task-Independent State Abstraction [61.707048209272884]
タスク独立状態抽象化(CDL)のための因果ダイナミクス学習を導入する。
CDLは、状態変数とアクションの間の不要な依存関係を取り除く理論的に証明された因果ダイナミクスモデルを学ぶ。
状態抽象化は、学習されたダイナミクスから導き出すことができる。
論文 参考訳(メタデータ) (2022-06-27T17:02:53Z) - PC-MLP: Model-based Reinforcement Learning with Policy Cover Guided
Exploration [15.173628100049129]
本研究では,カーネル化レギュレータ(KNR)と線形マルコフ決定過程(MDP)のモデルベースアルゴリズムについて検討する。
両方のモデルに対して、我々のアルゴリズムはサンプルの複雑さを保証し、プランニングオラクルへのアクセスのみを使用する。
また,提案手法は報酬のない探索を効率的に行うことができる。
論文 参考訳(メタデータ) (2021-07-15T15:49:30Z) - Model-Invariant State Abstractions for Model-Based Reinforcement
Learning [54.616645151708994]
textitmodel-invarianceという新しいタイプの状態抽象化を紹介します。
これにより、状態変数の見当たらない値の新しい組み合わせへの一般化が可能になる。
このモデル不変状態抽象化を通じて最適なポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2021-02-19T10:37:54Z) - Stealing Deep Reinforcement Learning Models for Fun and Profit [33.64948529132546]
本稿では,Deep Reinforcement Learning (DRL) に対する最初のモデル抽出攻撃を提案する。
これにより、外部の敵は環境との相互作用からのみブラックボックスDRLモデルを正確に回復することができる。
論文 参考訳(メタデータ) (2020-06-09T03:24:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。