論文の概要: Co-learning Planning and Control Policies Constrained by Differentiable
Logic Specifications
- arxiv url: http://arxiv.org/abs/2303.01346v2
- Date: Sat, 16 Sep 2023 02:52:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 00:39:45.921024
- Title: Co-learning Planning and Control Policies Constrained by Differentiable
Logic Specifications
- Title(参考訳): 微分論理仕様による協調学習計画・制御政策
- Authors: Zikang Xiong, Daniel Lawson, Joe Eappen, Ahmed H. Qureshi, Suresh
Jagannathan
- Abstract要約: 本稿では,高次元ロボットナビゲーションタスクを解くための新しい強化学習手法を提案する。
既存の強化学習アルゴリズムと比較して、より少ないサンプルで高品質なポリシーを訓練する。
提案手法は,高次元制御と政策アライメントによる準最適政策の回避にも有効である。
- 参考スコア(独自算出の注目度): 4.12484724941528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthesizing planning and control policies in robotics is a fundamental task,
further complicated by factors such as complex logic specifications and
high-dimensional robot dynamics. This paper presents a novel reinforcement
learning approach to solving high-dimensional robot navigation tasks with
complex logic specifications by co-learning planning and control policies.
Notably, this approach significantly reduces the sample complexity in training,
allowing us to train high-quality policies with much fewer samples compared to
existing reinforcement learning algorithms. In addition, our methodology
streamlines complex specification extraction from map images and enables the
efficient generation of long-horizon robot motion paths across different map
layouts. Moreover, our approach also demonstrates capabilities for
high-dimensional control and avoiding suboptimal policies via policy alignment.
The efficacy of our approach is demonstrated through experiments involving
simulated high-dimensional quadruped robot dynamics and a real-world
differential drive robot (TurtleBot3) under different types of task
specifications.
- Abstract(参考訳): ロボットの計画と制御ポリシーの合成は基本的なタスクであり、複雑な論理仕様や高次元ロボットのダイナミクスといった要素によってさらに複雑になる。
本稿では,複雑な論理仕様を持つ高次元ロボットナビゲーション課題を協調学習計画と制御ポリシーによって解決する新しい強化学習手法を提案する。
特に、このアプローチはトレーニングにおけるサンプルの複雑さを著しく減らし、既存の強化学習アルゴリズムよりもはるかに少ないサンプルで高品質なポリシーを訓練することができる。
さらに,地図画像からの複雑な仕様抽出を効率化し,地図レイアウトの異なる長軸ロボットの動作経路を効率的に生成する手法を提案する。
さらに,本手法では,高次元制御と政策アライメントによる準最適政策の回避も実現している。
本手法の有効性は,タスク仕様の異なる実世界差動駆動ロボット(TurtleBot3)と高次元四足ロボットのシミュレーションによる実験により実証された。
関連論文リスト
- Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Multi-Task Off-Policy Learning from Bandit Feedback [54.96011624223482]
本稿では,階層型非政治最適化アルゴリズム (HierOPO) を提案する。
学習方針の準最適性にタスクごとのバウンダリを証明し、階層モデルを使用しないよりも明確な改善を示す。
我々の理論的および実証的な結果は、各タスクを個別に解くよりも、階層を使うことの明確な利点を示している。
論文 参考訳(メタデータ) (2022-12-09T08:26:27Z) - Efficiently Learning Small Policies for Locomotion and Manipulation [12.340412143459869]
グラフハイパーネットワークを活用して、非政治強化学習で訓練されたグラフハイパーポリシーを学習する。
本手法は,任意の非政治強化学習アルゴリズムに付加可能であることを示す。
パラメータ数に対する制約を考慮し,最適なアーキテクチャを選択する方法を提案する。
論文 参考訳(メタデータ) (2022-09-30T23:49:00Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Direct Random Search for Fine Tuning of Deep Reinforcement Learning
Policies [5.543220407902113]
直接ランダム検索は、決定論的ロールアウトを用いて直接最適化することにより、DRLポリシーを微調整するのに非常に効果的であることを示す。
その結果, 本手法は, テストした環境において, より一貫性があり, 高性能なエージェントが得られることがわかった。
論文 参考訳(メタデータ) (2021-09-12T20:12:46Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z) - Continuous Action Reinforcement Learning from a Mixture of Interpretable
Experts [35.80418547105711]
本稿では,複雑な関数近似を内部値予測に保持するポリシスキームを提案する。
この論文の主な技術的貢献は、この非微分不可能な状態選択手順によってもたらされた課題に対処することである。
論文 参考訳(メタデータ) (2020-06-10T16:02:08Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。