論文の概要: Enforcing the consensus between Trajectory Optimization and Policy
Learning for precise robot control
- arxiv url: http://arxiv.org/abs/2209.09006v1
- Date: Mon, 19 Sep 2022 13:32:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 20:05:49.404592
- Title: Enforcing the consensus between Trajectory Optimization and Policy
Learning for precise robot control
- Title(参考訳): 正確なロボット制御のための軌道最適化と政策学習のコンセンサス
- Authors: Quentin Le Lidec, Wilson Jallet, Ivan Laptev, Cordelia Schmid, Justin
Carpentier
- Abstract要約: 強化学習(RL)と軌道最適化(TO)は強い相補的優位性を示す。
グローバルコントロールポリシを迅速に学習する上で,これらのアプローチに対して,いくつかの改良が提案されている。
- 参考スコア(独自算出の注目度): 75.28441662678394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) and trajectory optimization (TO) present strong
complementary advantages. On one hand, RL approaches are able to learn global
control policies directly from data, but generally require large sample sizes
to properly converge towards feasible policies. On the other hand, TO methods
are able to exploit gradient-based information extracted from simulators to
quickly converge towards a locally optimal control trajectory which is only
valid within the vicinity of the solution. Over the past decade, several
approaches have aimed to adequately combine the two classes of methods in order
to obtain the best of both worlds. Following on from this line of research, we
propose several improvements on top of these approaches to learn global control
policies quicker, notably by leveraging sensitivity information stemming from
TO methods via Sobolev learning, and augmented Lagrangian techniques to enforce
the consensus between TO and policy learning. We evaluate the benefits of these
improvements on various classical tasks in robotics through comparison with
existing approaches in the literature.
- Abstract(参考訳): 強化学習(rl)と軌道最適化(to)は強い相補的な利点を示す。
一方、RLアプローチは、データから直接グローバルコントロールポリシーを学ぶことができるが、一般的には、実現可能なポリシーに適切に収束するために、大きなサンプルサイズが必要である。
一方、TO法は、シミュレータから抽出した勾配に基づく情報を利用して、解の近傍でのみ有効である局所最適制御軌道に迅速に収束することができる。
過去10年間で、この2つの手法を適切に組み合わせ、両世界のベストを得られるようにしてきたアプローチがいくつかある。
そこで本研究では,これらの手法を用いて,ソボレフ学習によるTO法からの感度情報を活用することにより,グローバルコントロールポリシをより早く学習する手法と,TO法と政策学習のコンセンサスを強化するためのラグランジュ的手法の強化を提案する。
ロボット工学における古典的タスクにおけるこれらの改善の利点を文献における既存のアプローチと比較して評価する。
関連論文リスト
- Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Enabling Efficient, Reliable Real-World Reinforcement Learning with
Approximate Physics-Based Models [10.472792899267365]
我々は,実世界のデータを用いたロボット学習のための,効率的かつ信頼性の高いポリシー最適化戦略の開発に重点を置いている。
本稿では,新しい政策勾配に基づく政策最適化フレームワークを提案する。
提案手法では,実世界のデータの数分で,正確な制御戦略を確実に学習できることが示されている。
論文 参考訳(メタデータ) (2023-07-16T22:36:36Z) - Towards a Theoretical Foundation of Policy Optimization for Learning
Control Policies [26.04704565406123]
グラディエントベースの手法は、様々なアプリケーション領域におけるシステム設計と最適化に広く使われてきた。
近年、制御と強化学習の文脈において、これらの手法の理論的性質の研究に新たな関心が寄せられている。
本稿では、フィードバック制御合成のための勾配に基づく反復的アプローチであるポリシー最適化に関する最近の開発について概説する。
論文 参考訳(メタデータ) (2022-10-10T16:13:34Z) - Global Convergence Using Policy Gradient Methods for Model-free
Markovian Jump Linear Quadratic Control [8.98732207994362]
離散時間およびモデルフリーなマルコフジャンプ線形系の制御のための勾配に基づくポリシー最適化手法のグローバル収束性について検討する。
本研究では、勾配勾配勾配法と自然政策勾配法を用いて、政策のグローバル収束を示す。
論文 参考訳(メタデータ) (2021-11-30T09:26:26Z) - Domain Adaptive Person Re-Identification via Coupling Optimization [58.567492812339566]
ドメイン適応型人物再識別(ReID)は、ドメインのギャップとターゲットシナリオに対するアノテーションの不足のために困難である。
本稿では,ドメイン不変写像 (DIM) 法とグローバル局所距離最適化 (GLO) を含む結合最適化手法を提案する。
GLOはターゲットドメインの教師なし設定でReIDモデルをトレーニングするために設計されている。
論文 参考訳(メタデータ) (2020-11-06T14:01:03Z) - Localized active learning of Gaussian process state space models [63.97366815968177]
多くの共通制御アプリケーションにおいて、優れた性能を達成するためには、グローバルに正確なモデルを必要としない。
本稿では,状態-作用空間の有界部分集合上の正確なモデルを得ることを目的としたガウス過程状態空間モデルに対する能動的学習戦略を提案する。
モデル予測制御を用いることで、探索中に収集した情報を統合し、探索戦略を適応的に改善する。
論文 参考訳(メタデータ) (2020-05-04T05:35:02Z) - Lane-Merging Using Policy-based Reinforcement Learning and
Post-Optimization [0.0]
政策に基づく強化学習と局所最適化を組み合わせることで,2つの方法論のベストプラクティスを育成,合成する。
車両数の異なる車線変更シナリオを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2020-03-06T12:57:25Z) - Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案
我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。
実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文 参考訳(メタデータ) (2020-02-19T07:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。