論文の概要: Planning with Expectation Models for Control
- arxiv url: http://arxiv.org/abs/2104.08543v1
- Date: Sat, 17 Apr 2021 13:37:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 14:02:47.406715
- Title: Planning with Expectation Models for Control
- Title(参考訳): 予測モデルによる制御計画
- Authors: Katya Kudashkina, Yi Wan, Abhishek Naik, Richard S. Sutton
- Abstract要約: ワンなど。
一定の政策を評価する 予測のみの計画を考えました
期待モデルによる計画は、アクション値関数ではなく、状態値関数を更新する必要があることを証明します。
- 参考スコア(独自算出の注目度): 8.238241895275232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In model-based reinforcement learning (MBRL), Wan et al. (2019) showed
conditions under which the environment model could produce the expectation of
the next feature vector rather than the full distribution, or a sample thereof,
with no loss in planning performance. Such expectation models are of interest
when the environment is stochastic and non-stationary, and the model is
approximate, such as when it is learned using function approximation. In these
cases a full distribution model may be impractical and a sample model may be
either more expensive computationally or of high variance. Wan et al.
considered only planning for prediction to evaluate a fixed policy. In this
paper, we treat the control case - planning to improve and find a good
approximate policy. We prove that planning with an expectation model must
update a state-value function, not an action-value function as previously
suggested (e.g., Sorg & Singh, 2010). This opens the question of how planning
influences action selections. We consider three strategies for this and present
general MBRL algorithms for each. We identify the strengths and weaknesses of
these algorithms in computational experiments. Our algorithms and experiments
are the first to treat MBRL with expectation models in a general setting.
- Abstract(参考訳): モデルベース強化学習(MBRL)では、Wanら。
(2019) では, 環境モデルが全体の分布やサンプルではなく, 次の特徴ベクトルを期待できる条件を示し, 計画性能に損なわれなかった。
このような期待モデルは、環境が確率的かつ非定常であるときに興味を持ち、関数近似を用いて学習されるような近似モデルである。
この場合、完全な分布モデルは非実用的であり、サンプルモデルはより高価な計算的または高い分散である。
ワンなど。
一定の政策を評価する 予測のみの計画を考えました
本稿では,制御事例を扱い,改善を計画し,適切な近似ポリシーを見出す。
期待モデルを用いた計画では、前述したようなアクション値関数(Sorg & Singh, 2010)ではなく、状態値関数を更新しなければならない。
これは、プランニングがアクション選択にどのように影響するかという問題を開く。
本稿では3つの戦略を考察し,それぞれに汎用MBRLアルゴリズムを提案する。
計算実験において,これらのアルゴリズムの強みと弱みを特定する。
我々のアルゴリズムと実験は、MBRLを一般的な設定で予測モデルで扱う最初のものである。
関連論文リスト
- Source-Free Unsupervised Domain Adaptation with Hypothesis Consolidation
of Prediction Rationale [53.152460508207184]
Source-Free Unsupervised Domain Adaptation (SFUDA)は、モデルがターゲットのドメインラベルやソースドメインデータにアクセスせずに新しいドメインに適応する必要がある、という課題である。
本稿では,各サンプルについて複数の予測仮説を考察し,各仮説の背景にある理論的根拠について考察する。
最適性能を達成するために,モデル事前適応,仮説統合,半教師付き学習という3段階の適応プロセスを提案する。
論文 参考訳(メタデータ) (2024-02-02T05:53:22Z) - COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically
for Model-Based RL [50.385005413810084]
ダイナスタイルのモデルベース強化学習には、ポリシー学習と実環境探索のためのサンプルを生成するモデルロールアウトという2つのフェーズが含まれる。
$textttCOPlanner$は、不正確な学習された動的モデル問題に対処するモデルベースのメソッドのための計画駆動フレームワークである。
論文 参考訳(メタデータ) (2023-10-11T06:10:07Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Plan To Predict: Learning an Uncertainty-Foreseeing Model for
Model-Based Reinforcement Learning [32.24146877835396]
本稿では,モデルロールアウト処理を逐次決定問題として扱うフレームワークであるemphPlan To Predict (P2P)を提案する。
P2Pは、いくつかの課題のあるベンチマークタスクにおいて最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-01-20T10:17:22Z) - Mismatched No More: Joint Model-Policy Optimization for Model-Based RL [172.37829823752364]
本稿では,モデルとポリシーを共同でトレーニングする単一目的について提案する。
我々の目標は、期待されるリターンのグローバルな低い境界であり、この境界は特定の仮定の下で厳密になる。
結果のアルゴリズム(MnM)は概念的にはGANと似ている。
論文 参考訳(メタデータ) (2021-10-06T13:43:27Z) - Model-based micro-data reinforcement learning: what are the crucial
model properties and which model to choose? [0.2836066255205732]
我々は,マイクロデータモデルに基づく強化学習(MBRL)に寄与する。
マルチモーダルな後続予測を必要とする環境では、混合密度ネットは他のモデルよりも大きなマージンで優れていることがわかった。
また、決定論的モデルは同等であり、実際、確率論的モデルよりも一貫して(非目立ったことではないが)優れていることも見出した。
論文 参考訳(メタデータ) (2021-07-24T11:38:25Z) - Model-based metrics: Sample-efficient estimates of predictive model
subpopulation performance [11.994417027132807]
健康状態の表示、診断、予測のために現在一般的に開発されている機械学習モデル$-$は、様々なパフォーマンス指標で評価される。
サブ集団のパフォーマンスメトリクスは、通常、そのサブグループのデータのみを使用して計算されるため、より小さなグループに対する分散推定が高くなる。
本稿では,予測モデルスコアの条件分布を記述した評価モデル$-$を用いて,モデルベース計量(MBM)の推定値を生成する。
論文 参考訳(メタデータ) (2021-04-25T19:06:34Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。