論文の概要: Exploration via Planning for Information about the Optimal Trajectory
- arxiv url: http://arxiv.org/abs/2210.04642v1
- Date: Thu, 6 Oct 2022 20:28:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 14:11:25.604473
- Title: Exploration via Planning for Information about the Optimal Trajectory
- Title(参考訳): 最適軌道に関する情報の計画による探索
- Authors: Viraj Mehta and Ian Char and Joseph Abbate and Rory Conlin and Mark D.
Boyer and Stefano Ermon and Jeff Schneider and Willie Neiswanger
- Abstract要約: 我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
- 参考スコア(独自算出の注目度): 67.33886176127578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many potential applications of reinforcement learning (RL) are stymied by the
large numbers of samples required to learn an effective policy. This is
especially true when applying RL to real-world control tasks, e.g. in the
sciences or robotics, where executing a policy in the environment is costly. In
popular RL algorithms, agents typically explore either by adding stochasticity
to a reward-maximizing policy or by attempting to gather maximal information
about environment dynamics without taking the given task into account. In this
work, we develop a method that allows us to plan for exploration while taking
both the task and the current knowledge about the dynamics into account. The
key insight to our approach is to plan an action sequence that maximizes the
expected information gain about the optimal trajectory for the task at hand. We
demonstrate that our method learns strong policies with 2x fewer samples than
strong exploration baselines and 200x fewer samples than model free methods on
a diverse set of low-to-medium dimensional control tasks in both the open-loop
and closed-loop control settings.
- Abstract(参考訳): 強化学習 (RL) の潜在的な応用は、効果的な政策を学ぶのに必要なサンプルが多々あることによる。
科学やロボティクスなどの実世界の制御タスクにRLを適用する場合、環境におけるポリシーの実行はコストがかかる。
一般的なRLアルゴリズムでは、エージェントは典型的には報酬最大化ポリシーに確率性を加えるか、与えられたタスクを考慮せずに環境力学に関する最大情報を収集しようとする。
そこで本研究では,タスクとダイナミクスに関する現在の知識の両方を考慮に入れながら,探索を計画できる手法を開発した。
提案手法の主な洞察は,タスクの最適軌道に関する期待情報を最大化するためのアクションシーケンスを計画することである。
本手法は,オープンループとクローズドループの制御設定において,多種多様な低-中次元制御タスクにおいて,強力な探索ベースラインよりも2倍,モデルフリーメソッドより200倍少ないサンプルで強力なポリシーを学習できることを実証する。
関連論文リスト
- Sample-Efficient Reinforcement Learning with Temporal Logic Objectives: Leveraging the Task Specification to Guide Exploration [13.053013407015628]
本稿では,不確実な力学を持つシステムに対する最適制御ポリシーの学習問題に対処する。
本稿では,競争的アプローチよりもはるかに高速に制御ポリシーを学習できる高速化されたRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-16T00:53:41Z) - PLANRL: A Motion Planning and Imitation Learning Framework to Bootstrap Reinforcement Learning [13.564676246832544]
PLANRLは、ロボットがいつ古典的な動き計画を使うべきか、いつポリシーを学ぶべきかを選択するためのフレームワークである。
PLANRLは2つの操作モードを切り替える: オブジェクトから離れたときに古典的なテクニックを使ってウェイポイントに到達し、オブジェクトと対話しようとするときに細かい操作制御を行う。
我々は,複数の課題のあるシミュレーション環境と実世界のタスクにまたがってアプローチを評価し,既存手法と比較して適応性,効率,一般化の点で優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-07T19:30:08Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Direct Random Search for Fine Tuning of Deep Reinforcement Learning
Policies [5.543220407902113]
直接ランダム検索は、決定論的ロールアウトを用いて直接最適化することにより、DRLポリシーを微調整するのに非常に効果的であることを示す。
その結果, 本手法は, テストした環境において, より一貫性があり, 高性能なエージェントが得られることがわかった。
論文 参考訳(メタデータ) (2021-09-12T20:12:46Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - Ready Policy One: World Building Through Active Learning [35.358315617358976]
本稿では,モデルに基づく強化学習を積極的学習問題とみなすフレームワークであるReady Policy One(RP1)を紹介する。
RP1は、最適化中に重要な適応を行うハイブリッド目的関数を利用することで、これを実現する。
本手法を各種連続制御タスクにおいて厳密に評価し,既存手法に比べて統計的に有意な向上を示した。
論文 参考訳(メタデータ) (2020-02-07T09:57:53Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。