論文の概要: Model-based micro-data reinforcement learning: what are the crucial
model properties and which model to choose?
- arxiv url: http://arxiv.org/abs/2107.11587v1
- Date: Sat, 24 Jul 2021 11:38:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-28 07:50:44.001989
- Title: Model-based micro-data reinforcement learning: what are the crucial
model properties and which model to choose?
- Title(参考訳): モデルベースマイクロデータ強化学習:重要なモデル特性とどのモデルを選択するべきか?
- Authors: Bal\'azs K\'egl, Gabriel Hurtado, Albert Thomas
- Abstract要約: 我々は,マイクロデータモデルに基づく強化学習(MBRL)に寄与する。
マルチモーダルな後続予測を必要とする環境では、混合密度ネットは他のモデルよりも大きなマージンで優れていることがわかった。
また、決定論的モデルは同等であり、実際、確率論的モデルよりも一貫して(非目立ったことではないが)優れていることも見出した。
- 参考スコア(独自算出の注目度): 0.2836066255205732
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We contribute to micro-data model-based reinforcement learning (MBRL) by
rigorously comparing popular generative models using a fixed (random shooting)
control agent. We find that on an environment that requires multimodal
posterior predictives, mixture density nets outperform all other models by a
large margin. When multimodality is not required, our surprising finding is
that we do not need probabilistic posterior predictives: deterministic models
are on par, in fact they consistently (although non-significantly) outperform
their probabilistic counterparts. We also found that heteroscedasticity at
training time, perhaps acting as a regularizer, improves predictions at longer
horizons. At the methodological side, we design metrics and an experimental
protocol which can be used to evaluate the various models, predicting their
asymptotic performance when using them on the control problem. Using this
framework, we improve the state-of-the-art sample complexity of MBRL on Acrobot
by two to four folds, using an aggressive training schedule which is outside of
the hyperparameter interval usually considered
- Abstract(参考訳): 我々は,固定型(ランダムシューティング)制御エージェントを用いて,一般的な生成モデルを比較することで,マイクロデータモデルに基づく強化学習(mbrl)に寄与する。
マルチモーダルな後続予測を必要とする環境では、混合密度ネットは他のモデルよりも大きなマージンで優れていることがわかった。
マルチモーダリティが要求されない場合、我々の驚くべき発見は確率論的後続予測が不要であるということである。
また,トレーニング時の非定常性は,おそらく正則化剤として機能し,より長い地平線での予測を改善することも見出した。
方法論的な面では,様々なモデルの評価に使用可能なメトリクスと実験プロトコルを設計し,制御問題で使用する際の漸近的性能を予測する。
このフレームワークを用いることで、通常考慮されるハイパーパラメータ間隔の外にあるアグレッシブトレーニングスケジュールを用いて、Acrobot上のMBRLの最先端サンプル複雑性を2~4倍に改善する。
関連論文リスト
- Predictive Churn with the Set of Good Models [64.05949860750235]
近似機械学習モデルの集合に対する競合予測の効果について検討する。
ラーショモン集合内のモデル間の係り受けに関する理論的結果を示す。
当社のアプローチは、コンシューマ向けアプリケーションにおいて、より予測し、削減し、混乱を避けるためにどのように使用できるかを示します。
論文 参考訳(メタデータ) (2024-02-12T16:15:25Z) - Multi-timestep models for Model-based Reinforcement Learning [10.940666275830052]
モデルベース強化学習(MBRL)では、ほとんどのアルゴリズムはデータに基づいて学習した1ステップのダイナミックスモデルからの軌道のシミュレーションに依存している。
我々は、マルチステップの目標を用いてワンステップモデルをトレーニングすることでこの問題に対処する。
指数関数的に減衰する重みは、長い水平R2スコアを著しく改善するモデルに繋がることがわかった。
論文 参考訳(メタデータ) (2023-10-09T12:42:39Z) - Stable Training of Probabilistic Models Using the Leave-One-Out Maximum Log-Likelihood Objective [0.7373617024876725]
カーネル密度推定(KDE)に基づくモデルは、このタスクの一般的な選択であるが、密度の異なるデータ領域に適応できない。
適応的なKDEモデルを用いてこれを回避し、モデル内の各カーネルは個別の帯域幅を持つ。
最適化速度を確実に高速化するために改良された期待最大化アルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-10-05T14:08:42Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Stochastic Parameterizations: Better Modelling of Temporal Correlations
using Probabilistic Machine Learning [1.5293427903448025]
確率的フレームワーク内で物理インフォームされたリカレントニューラルネットワークを用いることで,96大気シミュレーションのモデルが競合することを示す。
これは、標準の1次自己回帰スキームと比較して時間的相関をモデル化する能力が優れているためである。
文献から多くの指標を評価するとともに、将来的な気候モデルにおいて、確率論的尺度が統一的な選択である可能性についても論じる。
論文 参考訳(メタデータ) (2022-03-28T14:51:42Z) - Anomaly Detection of Time Series with Smoothness-Inducing Sequential
Variational Auto-Encoder [59.69303945834122]
Smoothness-Inducing Sequential Variational Auto-Encoder (SISVAE) モデルを提案する。
我々のモデルは、フレキシブルニューラルネットワークを用いて各タイムスタンプの平均と分散をパラメータ化する。
合成データセットと公開実世界のベンチマークの両方において,本モデルの有効性を示す。
論文 参考訳(メタデータ) (2021-02-02T06:15:15Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z) - Nonparametric Estimation in the Dynamic Bradley-Terry Model [69.70604365861121]
カーネルのスムース化に依存する新しい推定器を開発し、時間とともにペア比較を前処理する。
モデルに依存しない設定における推定誤差と余剰リスクの両方について時間変化のオラクル境界を導出する。
論文 参考訳(メタデータ) (2020-02-28T21:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。