論文の概要: Adaptive Rollout Length for Model-Based RL Using Model-Free Deep RL
- arxiv url: http://arxiv.org/abs/2206.02380v2
- Date: Tue, 7 Jun 2022 14:01:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 11:33:55.517583
- Title: Adaptive Rollout Length for Model-Based RL Using Model-Free Deep RL
- Title(参考訳): モデルフリー深部RLを用いたモデルベースRLの適応ロールアウト長
- Authors: Abhinav Bhatia, Philip S. Thomas, Shlomo Zilberstein
- Abstract要約: ロールアウト長をメタレベルのシーケンシャルな意思決定問題としてチューニングする問題について検討する。
メタレベル決定問題の解決にはモデルフリーの深層強化学習を用いる。
- 参考スコア(独自算出の注目度): 39.58890668062184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based reinforcement learning promises to learn an optimal policy from
fewer interactions with the environment compared to model-free reinforcement
learning by learning an intermediate model of the environment in order to
predict future interactions. When predicting a sequence of interactions, the
rollout length, which limits the prediction horizon, is a critical
hyperparameter as accuracy of the predictions diminishes in the regions that
are further away from real experience. As a result, with a longer rollout
length, an overall worse policy is learned in the long run. Thus, the
hyperparameter provides a trade-off between quality and efficiency. In this
work, we frame the problem of tuning the rollout length as a meta-level
sequential decision-making problem that optimizes the final policy learned by
model-based reinforcement learning given a fixed budget of environment
interactions by adapting the hyperparameter dynamically based on feedback from
the learning process, such as accuracy of the model and the remaining budget of
interactions. We use model-free deep reinforcement learning to solve the
meta-level decision problem and demonstrate that our approach outperforms
common heuristic baselines on two well-known reinforcement learning
environments.
- Abstract(参考訳): モデルベース強化学習は、将来の相互作用を予測するために環境の中間モデルを学ぶことによって、モデルフリー強化学習と比較して、環境との相互作用が少ないことから最適なポリシーを学ぶことを約束する。
一連の相互作用を予測するとき、予測水平線を制限するロールアウト長は、予測の精度が実際の経験から遠く離れた領域で減少するため、臨界ハイパーパラメータである。
その結果、ロールアウト期間が長いため、長期的には全体的に悪い方針が学習される。
したがって、ハイパーパラメータは品質と効率のトレードオフを提供する。
本研究では,モデルの精度やインタラクションの残りの予算といった学習プロセスからのフィードバックに基づいて,ハイパーパラメータを動的に適応させることにより,環境相互作用の固定予算を与えられたモデルベース強化学習で学習した最終方針を最適化するメタレベル逐次決定問題として,ロールアウト長の調整を行う。
我々はメタレベル決定問題の解法としてモデルフリーの深層強化学習を用い、この手法がよく知られた2つの強化学習環境における共通のヒューリスティックベースラインより優れていることを示す。
関連論文リスト
- SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - Model predictive control-based value estimation for efficient reinforcement learning [6.8237783245324035]
データ駆動型アプローチにより環境をモデル化するモデル予測制御に基づく改良された強化学習手法を設計する。
学習した環境モデルに基づいて、値関数を推定し、ポリシーを最適化する多段階予測を行う。
本手法は, 学習効率の向上, 局所最適値に傾向のある戦略の収束速度の向上, 経験的再生バッファに必要なサンプル容量の削減を実現する。
論文 参考訳(メタデータ) (2023-10-25T13:55:14Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Efficient Dynamics Modeling in Interactive Environments with Koopman Theory [22.7309724944471]
本稿では,畳み込みを用いた長距離予測の逐次的問題を効率的に並列化する方法について述べる。
また、モデルベース計画とモデルフリーRLのための動的モデリングにこのモデルを容易に組み込むことができることを示す。
論文 参考訳(メタデータ) (2023-06-20T23:38:24Z) - Revisiting Design Choices in Model-Based Offline Reinforcement Learning [39.01805509055988]
オフライン強化学習により、エージェントは環境遷移の大規模な収集済みデータセットを利用して制御ポリシーを学習することができる。
本稿では、モデル数や仮想ロールアウト地平線など、他のハイパーパラメータとの相互作用を研究するための新しいプロトコルを比較し、設計する。
論文 参考訳(メタデータ) (2021-10-08T13:51:34Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - Discriminator Augmented Model-Based Reinforcement Learning [47.094522301093775]
学習したモデルが不正確であり、計画が損なわれ、パフォーマンスが悪くなるのは実際には一般的です。
本稿では,真の力学と学習力学の相違を考慮に入れた重要サンプリングフレームワークによる計画の改善を目的とする。
論文 参考訳(メタデータ) (2021-03-24T06:01:55Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。