論文の概要: How does the structure embedded in learning policy affect learning
quadruped locomotion?
- arxiv url: http://arxiv.org/abs/2008.12970v1
- Date: Sat, 29 Aug 2020 12:11:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 17:37:22.787310
- Title: How does the structure embedded in learning policy affect learning
quadruped locomotion?
- Title(参考訳): 学習方針に埋め込まれた構造は四足歩行の学習にどのように影響するか?
- Authors: Kuangen Zhang, Jongwoo Lee, Zhimin Hou, Clarence W. de Silva,
Chenglong Fu, Neville Hogan
- Abstract要約: 本稿では,四足歩行学習における構造レベルが異なる3つの方針について検討する。
構造化されたポリシーは、タスク空間インピーダンスコントローラを学ぶために訓練され、高度に構造化されたポリシーは、トロットランニングに適したコントローラを学ぶ。
シミュレーションの結果、構造化政策と高度に構造化された政策は、同様の累積報酬のレベルを達成するために、直接政策よりも1/3と3/4のトレーニングステップを必要としていることがわかった。
- 参考スコア(独自算出の注目度): 6.734874097776686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) is a popular data-driven method that has
demonstrated great success in robotics. Previous works usually focus on
learning an end-to-end (direct) policy to directly output joint torques. While
the direct policy seems convenient, the resultant performance may not meet our
expectations. To improve its performance, more sophisticated reward functions
or more structured policies can be utilized. This paper focuses on the latter
because the structured policy is more intuitive and can inherit insights from
previous model-based controllers. It is unsurprising that the structure, such
as a better choice of the action space and constraints of motion trajectory,
may benefit the training process and the final performance of the policy at the
cost of generality, but the quantitative effect is still unclear. To analyze
the effect of the structure quantitatively, this paper investigates three
policies with different levels of structure in learning quadruped locomotion: a
direct policy, a structured policy, and a highly structured policy. The
structured policy is trained to learn a task-space impedance controller and the
highly structured policy learns a controller tailored for trot running, which
we adopt from previous work. To evaluate trained policies, we design a
simulation experiment to track different desired velocities under force
disturbances. Simulation results show that structured policy and highly
structured policy require 1/3 and 3/4 fewer training steps than the direct
policy to achieve a similar level of cumulative reward, and seem more robust
and efficient than the direct policy. We highlight that the structure embedded
in the policies significantly affects the overall performance of learning a
complicated task when complex dynamics are involved, such as legged locomotion.
- Abstract(参考訳): 強化学習(rl)は、ロボット工学で大きな成功を収めた一般的なデータ駆動手法である。
以前の作品は通常、関節トルクを直接出力するためのエンドツーエンド(直接)ポリシーの学習に焦点を当てている。
直接的な方針は便利に思えるが、結果のパフォーマンスは私たちの期待に合わないかもしれない。
パフォーマンスを向上させるために、より洗練された報酬機能やより構造化されたポリシーが利用できる。
本論文は、構造的ポリシーがより直感的であり、従来のモデルベースコントローラからの洞察を継承できるため、後者に焦点を当てる。
アクション空間のより良い選択や運動軌跡の制約のような構造が、一般的なコストでトレーニングプロセスと政策の最終性能に利益をもたらすことは予想できないが、定量効果はまだ不明である。
本稿では,構造の影響を定量的に解析するため,四足歩行学習における構造レベルの異なる3つの政策,すなわち,直接政策,構造化政策,高度構成政策について検討する。
構造化されたポリシーは、タスク空間インピーダンスコントローラを学習するために訓練され、高度に構造化されたポリシーは、以前の作業から採用したトロットランニングに適したコントローラを学ぶ。
訓練されたポリシーを評価するために, 異なる所望の速度を追従するシミュレーション実験を考案する。
シミュレーションの結果、構造化政策と高度構成政策は、同じレベルの累積報酬を達成するために、直接政策よりも1/3と3/4の訓練ステップを要し、直接政策よりも堅牢で効率的であることがわかった。
このポリシーに埋め込まれた構造は、足の移動などの複雑なダイナミクスが関与する複雑なタスクの学習の全体的なパフォーマンスに大きく影響する。
関連論文リスト
- Enabling Efficient, Reliable Real-World Reinforcement Learning with
Approximate Physics-Based Models [10.472792899267365]
我々は,実世界のデータを用いたロボット学習のための,効率的かつ信頼性の高いポリシー最適化戦略の開発に重点を置いている。
本稿では,新しい政策勾配に基づく政策最適化フレームワークを提案する。
提案手法では,実世界のデータの数分で,正確な制御戦略を確実に学習できることが示されている。
論文 参考訳(メタデータ) (2023-07-16T22:36:36Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - Reinforcement Learning [36.664136621546575]
強化学習(Reinforcement Learning, RL)は適応制御のための一般的なフレームワークであり、多くの領域で効率的であることが証明されている。
本章では、RLの基本的枠組みを示し、優れた政策を学ぶために開発された2つのアプローチのメインファミリーを思い出す。
論文 参考訳(メタデータ) (2020-05-29T06:53:29Z) - Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案
我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。
実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文 参考訳(メタデータ) (2020-02-19T07:30:57Z) - Tree-Structured Policy based Progressive Reinforcement Learning for
Temporally Language Grounding in Video [128.08590291947544]
非トリミングビデオにおける一時的言語接地は、ビデオ理解における新たな課題である。
ヒトの粗大な意思決定パラダイムにインスパイアされた我々は、新しい木構造政策に基づくプログレッシブ強化学習フレームワークを定式化した。
論文 参考訳(メタデータ) (2020-01-18T15:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。