論文の概要: Random Actions vs Random Policies: Bootstrapping Model-Based Direct
Policy Search
- arxiv url: http://arxiv.org/abs/2210.11801v1
- Date: Fri, 21 Oct 2022 08:26:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 15:37:25.731343
- Title: Random Actions vs Random Policies: Bootstrapping Model-Based Direct
Policy Search
- Title(参考訳): ランダムアクション対ランダムポリシー:モデルに基づく直接ポリシー検索のブートストラップ
- Authors: Elias Hanna, Alex Coninx, St\'ephane Doncieux
- Abstract要約: 本稿では,初期データ収集手法がその後の力学モデルの学習に与える影響について検討する。
ダイナミクスモデルは、モデル上で直接ポリシー探索を行うために、与えられたタスクの真の遷移関数を近似する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies the impact of the initial data gathering method on the
subsequent learning of a dynamics model. Dynamics models approximate the true
transition function of a given task, in order to perform policy search directly
on the model rather than on the costly real system. This study aims to
determine how to bootstrap a model as efficiently as possible, by comparing
initialization methods employed in two different policy search frameworks in
the literature. The study focuses on the model performance under the
episode-based framework of Evolutionary methods using probabilistic ensembles.
Experimental results show that various task-dependant factors can be
detrimental to each method, suggesting to explore hybrid approaches.
- Abstract(参考訳): 本稿では, 動的モデルの学習における初期データ収集手法の影響について検討する。
ダイナミクスモデルは、コストのかかる実システムではなく、モデル上で直接ポリシー探索を行うために、与えられたタスクの真の遷移関数を近似する。
本研究の目的は,文献における2つの異なるポリシー検索フレームワークで使用される初期化手法を比較し,モデルをできるだけ効率的にブートストラップする方法を決定することである。
本研究は,確率的アンサンブルを用いた進化的手法のエピソードベース枠組みに基づくモデル性能に焦点を当てた。
実験結果から,様々なタスク依存因子がそれぞれの手法に有害であることが示唆された。
関連論文リスト
- Model-Free Active Exploration in Reinforcement Learning [53.786439742572995]
強化学習における探索問題について検討し,新しいモデルフリーソリューションを提案する。
我々の戦略は、最先端の探査アプローチよりも高速に効率的な政策を特定できる。
論文 参考訳(メタデータ) (2024-06-30T19:00:49Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - The Virtues of Laziness in Model-based RL: A Unified Objective and
Algorithms [37.025378882978714]
モデルベース強化学習(MBRL)における2つの基本的な課題に対処する新しいアプローチを提案する。
我々の「怠慢」な手法は、学習された方針と専門家の政策の間のパフォーマンスの違いを捉えるために、モデルにおけるアドバンテージによるパフォーマンスの差異という、新しい統合された目的を生かしている。
提案する目的を最適化する2つの非回帰アルゴリズムを提案し,その統計的および計算的ゲインを実証する。
論文 参考訳(メタデータ) (2023-03-01T17:42:26Z) - Offline Reinforcement Learning via High-Fidelity Generative Behavior
Modeling [34.88897402357158]
政策モデルの分布表現性に制限があるため,従来の手法はトレーニング中にも見つからない行動を選択する可能性がある。
我々は,学習方針を表現的生成行動モデルと行動評価モデルという2つの部分に分解して生成的アプローチを採用する。
提案手法は,最先端のオフラインRL法と比較して,競争力や優れた性能を実現する。
論文 参考訳(メタデータ) (2022-09-29T04:36:23Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Active Learning-Based Multistage Sequential Decision-Making Model with
Application on Common Bile Duct Stone Evaluation [8.296821186083974]
多段階の意思決定シナリオは、医療診断プロセスで一般的に見られる。
本稿では,必要な患者データのみを逐次的に収集する能動的学習法を開発した。
本手法の有効性をシミュレーション研究と実例研究の両方で検証した。
論文 参考訳(メタデータ) (2022-01-13T06:42:12Z) - Learning Robust Controllers Via Probabilistic Model-Based Policy Search [2.886634516775814]
このような方法で学習したコントローラが、環境の小さな摂動の下で頑健であり、一般化できるかどうかを考察する。
ガウス過程のダイナミックスモデルにおける確率雑音に対する低拘束がポリシー更新を規則化し、より堅牢なコントローラが得られることを示す。
論文 参考訳(メタデータ) (2021-10-26T11:17:31Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。