論文の概要: Adaptive Discretization for Model-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2007.00717v2
- Date: Fri, 23 Oct 2020 13:16:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 22:18:28.703698
- Title: Adaptive Discretization for Model-Based Reinforcement Learning
- Title(参考訳): モデルベース強化学習のための適応的離散化
- Authors: Sean R. Sinclair, Tianyu Wang, Gauri Jain, Siddhartha Banerjee,
Christina Lee Yu
- Abstract要約: 本稿では,適応離散化手法を導入し,効率的なモデルに基づくエピソード強化学習アルゴリズムを設計する。
我々のアルゴリズムは、空間の適応的な離散化を維持するために拡張された楽観的なワンステップ値反復に基づいている。
- 参考スコア(独自算出の注目度): 10.21634042036049
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the technique of adaptive discretization to design an efficient
model-based episodic reinforcement learning algorithm in large (potentially
continuous) state-action spaces. Our algorithm is based on optimistic one-step
value iteration extended to maintain an adaptive discretization of the space.
From a theoretical perspective we provide worst-case regret bounds for our
algorithm which are competitive compared to the state-of-the-art model-based
algorithms. Moreover, our bounds are obtained via a modular proof technique
which can potentially extend to incorporate additional structure on the
problem.
From an implementation standpoint, our algorithm has much lower storage and
computational requirements due to maintaining a more efficient partition of the
state and action spaces. We illustrate this via experiments on several
canonical control problems, which shows that our algorithm empirically performs
significantly better than fixed discretization in terms of both faster
convergence and lower memory usage. Interestingly, we observe empirically that
while fixed-discretization model-based algorithms vastly outperform their
model-free counterparts, the two achieve comparable performance with adaptive
discretization.
- Abstract(参考訳): 本稿では,大規模(潜在的に連続的な)状態動作空間において,効率的なモデルベースエピソディック強化学習アルゴリズムを設計するための適応的離散化手法を提案する。
本アルゴリズムは,空間の適応的離散化を維持するために拡張された楽観的なワンステップ値反復に基づいている。
理論的観点からは、最先端のモデルベースアルゴリズムと競合するアルゴリズムに対して、最悪の後悔境界を提供する。
さらに,問題に付加的な構造を組み込むために拡張可能なモジュラー証明手法により,その限界を求めることができる。
実装の観点からは、状態空間と行動空間のより効率的な分割を維持するため、我々のアルゴリズムはストレージと計算の要求がはるかに少ない。
提案手法は,複数の正準制御問題に対して実験を行い,より高速な収束と少ないメモリ使用の両方において,固定離散化よりも経験的に有意な性能を示す。
興味深いことに、固定離散化モデルに基づくアルゴリズムはモデルフリーのアルゴリズムを大きく上回っているが、両アルゴリズムは適応離散化と同等の性能を達成している。
関連論文リスト
- Model Uncertainty in Evolutionary Optimization and Bayesian Optimization: A Comparative Analysis [5.6787965501364335]
ブラックボックス最適化問題は、多くの現実世界のアプリケーションで一般的な問題である。
これらの問題はインプット・アウトプット・インタラクションを通じて内部動作へのアクセスなしに最適化する必要がある。
このような問題に対処するために2つの広く使われている勾配のない最適化手法が用いられている。
本稿では,2つの手法間のモデル不確実性の類似点と相違点を明らかにすることを目的とする。
論文 参考訳(メタデータ) (2024-03-21T13:59:19Z) - Provably Efficient Learning in Partially Observable Contextual Bandit [4.910658441596583]
古典的帯域幅アルゴリズムの改善に因果境界をどのように適用できるかを示す。
本研究は,実世界の応用における文脈的包括的エージェントの性能を高める可能性を秘めている。
論文 参考訳(メタデータ) (2023-08-07T13:24:50Z) - Accelerated First-Order Optimization under Nonlinear Constraints [73.2273449996098]
我々は、制約付き最適化のための一階アルゴリズムと非滑らかなシステムの間で、新しい一階アルゴリズムのクラスを設計する。
これらのアルゴリズムの重要な性質は、制約がスパース変数の代わりに速度で表されることである。
論文 参考訳(メタデータ) (2023-02-01T08:50:48Z) - Faster Adaptive Federated Learning [84.38913517122619]
フェデレートラーニングは分散データの出現に伴って注目を集めている。
本稿では,クロスサイロFLにおけるモーメントに基づく分散低減手法に基づく適応アルゴリズム(FAFED)を提案する。
論文 参考訳(メタデータ) (2022-12-02T05:07:50Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Structured Optimal Variational Inference for Dynamic Latent Space Models [16.531262817315696]
動的ネットワークの潜在空間モデルについて検討し、その目的は、ペアの内積と潜在位置のインターセプトを推定することである。
後部推論と計算スケーラビリティのバランスをとるために、構造的平均場変動推論フレームワークを検討する。
論文 参考訳(メタデータ) (2022-09-29T22:10:42Z) - Annealing Optimization for Progressive Learning with Stochastic
Approximation [0.0]
計算資源が限られているアプリケーションのニーズを満たすために設計された学習モデルを導入する。
我々は,オンラインな勾配近似アルゴリズムとして定式化されたオンラインプロトタイプベースの学習アルゴリズムを開発した。
学習モデルは、教師なし、教師なし、強化学習に使用される、解釈可能で、徐々に成長する競争的ニューラルネットワークモデルと見なすことができる。
論文 参考訳(メタデータ) (2022-09-06T21:31:01Z) - Tree ensemble kernels for Bayesian optimization with known constraints
over mixed-feature spaces [54.58348769621782]
木アンサンブルはアルゴリズムチューニングやニューラルアーキテクチャ検索といったブラックボックス最適化タスクに適している。
ブラックボックス最適化にツリーアンサンブルを使うことの2つのよく知られた課題は、探索のためのモデル不確実性を効果的に定量化し、また、 (ii) ピースワイドな定値取得関数を最適化することである。
我々のフレームワークは、連続/離散的機能に対する非拘束ブラックボックス最適化のための最先端の手法と同様に、混合変数の特徴空間と既知の入力制約を組み合わせた問題の競合する手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-02T16:59:37Z) - Joint Continuous and Discrete Model Selection via Submodularity [1.332560004325655]
機械学習のモデル選択問題では、意味のある構造を持つ優れたモデルに対する欲求は、典型的には正規化された最適化問題によって表される。
しかし、多くのシナリオでは、数値的に意味のある構造が離散空間において特定され、難しい非最適化問題を引き起こす。
我々は、ロバスト最適化によって動機づけられた特定の問題クラスに対して、単純な連続的あるいは離散的な制約をいかに扱うかを示す。
論文 参考訳(メタデータ) (2021-02-17T21:14:47Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。