論文の概要: An Experimental Design Perspective on Model-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2112.05244v1
- Date: Thu, 9 Dec 2021 23:13:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-13 13:21:24.171627
- Title: An Experimental Design Perspective on Model-Based Reinforcement Learning
- Title(参考訳): モデルベース強化学習における実験設計の展望
- Authors: Viraj Mehta and Biswajit Paria and Jeff Schneider and Stefano Ermon
and Willie Neiswanger
- Abstract要約: 環境からの状態遷移を観察するのは費用がかかる。
標準RLアルゴリズムは通常、学習するために多くの観測を必要とする。
本稿では,マルコフ決定過程について,状態-作用対がどの程度の情報を提供するかを定量化する獲得関数を提案する。
- 参考スコア(独自算出の注目度): 73.37942845983417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many practical applications of RL, it is expensive to observe state
transitions from the environment. For example, in the problem of plasma control
for nuclear fusion, computing the next state for a given state-action pair
requires querying an expensive transition function which can lead to many hours
of computer simulation or dollars of scientific research. Such expensive data
collection prohibits application of standard RL algorithms which usually
require a large number of observations to learn. In this work, we address the
problem of efficiently learning a policy while making a minimal number of
state-action queries to the transition function. In particular, we leverage
ideas from Bayesian optimal experimental design to guide the selection of
state-action queries for efficient learning. We propose an acquisition function
that quantifies how much information a state-action pair would provide about
the optimal solution to a Markov decision process. At each iteration, our
algorithm maximizes this acquisition function, to choose the most informative
state-action pair to be queried, thus yielding a data-efficient RL approach. We
experiment with a variety of simulated continuous control problems and show
that our approach learns an optimal policy with up to $5$ -- $1,000\times$ less
data than model-based RL baselines and $10^3$ -- $10^5\times$ less data than
model-free RL baselines. We also provide several ablated comparisons which
point to substantial improvements arising from the principled method of
obtaining data.
- Abstract(参考訳): RLの多くの実用的な応用において、環境からの状態遷移を観察することは高価である。
例えば、核融合のためのプラズマ制御の問題では、与えられた状態-作用対に対する次の状態の計算には高価な遷移関数をクエリする必要がある。
このような高価なデータ収集は、通常学習するために多くの観測を必要とする標準RLアルゴリズムの適用を禁止している。
本研究では,遷移関数に対して最小限のステートアクションクエリを行いながら,ポリシーを効率的に学習する問題に対処する。
特に,ベイズ最適実験設計のアイデアを活用し,効率的な学習のための状態動作クエリの選択を導く。
本稿では,マルコフ決定過程に対する最適解について,状態-作用対がどの程度の情報を提供するかを定量化する獲得関数を提案する。
各イテレーションにおいて,本アルゴリズムは,この取得関数を最大化し,クエリする最も情報性の高い状態-動作ペアを選択する。
我々は,モデルベースのrlベースラインよりも最大$1,000\times$,モデルフリーのrlベースラインより$10^3$~$10^5\times$少ないデータで最適なポリシーを学習できることを検証した。
また,データ取得の原理的な方法から生じる実質的な改善を示すいくつかの補間比較を行った。
関連論文リスト
- Sublinear Regret for a Class of Continuous-Time Linear--Quadratic Reinforcement Learning Problems [10.404992912881601]
拡散に対する連続時間線形四元数制御(LQ)のクラスに対する強化学習について検討した。
本研究では,モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,最適なポリシーパラメータを直接学習するためのアクタ批判アルゴリズムを考案する。
論文 参考訳(メタデータ) (2024-07-24T12:26:21Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Markov Decision
Processes [80.89852729380425]
そこで本研究では,最小限の最小残差である$tilde O(dsqrtH3K)$を計算効率よく実現したアルゴリズムを提案する。
我々の研究は線形 MDP を用いた最適 RL に対する完全な答えを提供する。
論文 参考訳(メタデータ) (2022-12-12T18:58:59Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - Offline Inverse Reinforcement Learning [24.316047317028147]
オフラインRLは、固定された探索的なデータセットが利用可能になったときに最適なポリシーを学ぶことである。
オンライン環境での擬似演出の状態を達成したIRL技術の成功に触発されて、GANベースのデータ拡張手順を利用して、最初のオフラインIRLアルゴリズムを構築した。
論文 参考訳(メタデータ) (2021-06-09T13:44:06Z) - On Using Hamiltonian Monte Carlo Sampling for Reinforcement Learning
Problems in High-dimension [7.200655637873445]
Hamiltonian Monte Carlo (HMC) サンプリングは、RLアルゴリズムをトレーニングするためのデータを生成するための抽出可能な方法を提供する。
textitHamiltonian $Q$-Learningと呼ばれるフレームワークを導入し、理論的にも経験的にも、アクション、報酬、状態遷移のHMCサンプルによって生成されたデータセットから$Q$値が学習可能であることを示す。
論文 参考訳(メタデータ) (2020-11-11T17:35:25Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z) - State Action Separable Reinforcement Learning [11.04892417160547]
我々は,新たな学習パラダイムである状態行動分離型強化学習(sasRL)を提案する。
sasRLでは、アクション空間が値関数学習プロセスから切り離され、効率が向上する。
いくつかのゲームシナリオの実験では、sasRLは最先端のMDPベースのRLアルゴリズムより75%高い性能を示している。
論文 参考訳(メタデータ) (2020-06-05T22:02:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。