論文の概要: SAR: Generalization of Physiological Agility and Dexterity via
Synergistic Action Representation
- arxiv url: http://arxiv.org/abs/2307.03716v2
- Date: Fri, 14 Jul 2023 05:35:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 16:19:29.026436
- Title: SAR: Generalization of Physiological Agility and Dexterity via
Synergistic Action Representation
- Title(参考訳): SAR: 相乗的行動表現による生理的アジリティとデクスタリティの一般化
- Authors: Cameron Berg, Vittorio Caggiano, Vikash Kumar
- Abstract要約: 筋シナジーによるモジュラー制御は、生物がシンプルで一般化可能な行動空間で筋肉制御を学習することを可能にすることを示す。
より単純なタスクから獲得したSAR(Synergistic Action Representation)が、より複雑なタスクを学習するのに役立つ範囲を決定するためのテストベッドとして、生理学的に正確な人手と足のモデルを用いている。
いずれの場合も,SAR公開政策がエンドツーエンドの強化学習を著しく上回っていることが判明した。
- 参考スコア(独自算出の注目度): 10.349135207285464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning effective continuous control policies in high-dimensional systems,
including musculoskeletal agents, remains a significant challenge. Over the
course of biological evolution, organisms have developed robust mechanisms for
overcoming this complexity to learn highly sophisticated strategies for motor
control. What accounts for this robust behavioral flexibility? Modular control
via muscle synergies, i.e. coordinated muscle co-contractions, is considered to
be one putative mechanism that enables organisms to learn muscle control in a
simplified and generalizable action space. Drawing inspiration from this
evolved motor control strategy, we use physiologically accurate human hand and
leg models as a testbed for determining the extent to which a Synergistic
Action Representation (SAR) acquired from simpler tasks facilitates learning
more complex tasks. We find in both cases that SAR-exploiting policies
significantly outperform end-to-end reinforcement learning. Policies trained
with SAR were able to achieve robust locomotion on a wide set of terrains with
high sample efficiency, while baseline approaches failed to learn meaningful
behaviors. Additionally, policies trained with SAR on a multiobject
manipulation task significantly outperformed (>70% success) baseline approaches
(<20% success). Both of these SAR-exploiting policies were also found to
generalize zero-shot to out-of-domain environmental conditions, while policies
that did not adopt SAR failed to generalize. Finally, we establish the
generality of SAR on broader high-dimensional control problems using a robotic
manipulation task set and a full-body humanoid locomotion task. To the best of
our knowledge, this investigation is the first of its kind to present an
end-to-end pipeline for discovering synergies and using this representation to
learn high-dimensional continuous control across a wide diversity of tasks.
- Abstract(参考訳): 筋骨格剤を含む高次元システムにおける効果的な連続制御政策の学習は依然として重要な課題である。
生物進化の過程で、生物はこの複雑さを克服し、高度に洗練された運動制御戦略を学ぶためのロバストなメカニズムを開発してきた。
この堅牢な行動の柔軟性の原因は何でしょう?
筋シナジー、すなわち協調筋のココントラクションによる調節は、生物がシンプルで一般化可能な行動空間で筋肉の制御を学習することを可能にする1つの機構であると考えられている。
この進化した運動制御戦略からインスピレーションを得て、より単純なタスクから獲得したSAR(Synergistic Action Representation)がより複雑なタスクを学習しやすくするためのテストベッドとして、生理学的に正確な人手と足のモデルを使用する。
いずれの場合も,SAR公開政策がエンドツーエンドの強化学習を著しく上回ることがわかった。
SARで訓練された政策は、サンプル効率の高い広い地形で堅牢な移動を達成することができ、ベースラインアプローチは意味のある行動を学ぶことができなかった。
さらに、マルチオブジェクト操作タスクでsarでトレーニングされたポリシーは、ベースラインアプローチ(70%以上の成功)を大きく上回っている(20%の成功)。
これらのSAR-Exploitingポリシーはどちらもゼロショットをドメイン外の環境条件に一般化するが、SARを採用しないポリシーは一般化しなかった。
最後に,ロボット操作タスクセットとフルボディヒューマノイド移動タスクを用いて,より広い高次元制御問題に対するSARの一般性を確立する。
我々の知る限りでは、この研究は、シナジーを発見し、この表現を用いて幅広いタスクにわたる高次元連続制御を学習するためのエンドツーエンドパイプラインを初めて提示するものである。
関連論文リスト
- LGR2: Language Guided Reward Relabeling for Accelerating Hierarchical Reinforcement Learning [22.99690700210957]
言語命令を利用して,より高レベルなポリシーのための静的報酬関数を生成する新しいHRLフレームワークを提案する。
言語誘導報酬はより低い原始的な振る舞いに影響されないため、LGR2は非定常性を緩和する。
弊社のアプローチは、難易度の高いスパークリワードロボットナビゲーションと操作環境において、70ドル以上の成功率を達成した。
論文 参考訳(メタデータ) (2024-06-09T18:40:24Z) - Twisting Lids Off with Two Hands [82.21668778600414]
シミュレーションで訓練された政策を実世界へ効果的かつ効率的に移行する方法を示す。
具体的には,ボトル状物体の蓋を両手でねじる問題について考察する。
これは、バイマガル・マルチフィンガーハンドでそのような機能を実現する最初のsim-to-real RLシステムである。
論文 参考訳(メタデータ) (2024-03-04T18:59:30Z) - RObotic MAnipulation Network (ROMAN) $\unicode{x2013}$ Hybrid
Hierarchical Learning for Solving Complex Sequential Tasks [70.69063219750952]
ロボットマニピュレーションネットワーク(ROMAN)のハイブリッド階層型学習フレームワークを提案する。
ROMANは、行動クローニング、模倣学習、強化学習を統合することで、タスクの汎用性と堅牢な障害回復を実現する。
実験結果から,これらの専門的な操作専門家の組織化と活性化により,ROMANは高度な操作タスクの長いシーケンスを達成するための適切なシーケンシャルなアクティベーションを生成することがわかった。
論文 参考訳(メタデータ) (2023-06-30T20:35:22Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - Low-Rank Modular Reinforcement Learning via Muscle Synergy [25.120547719120765]
モジュール強化学習(RL)は、アクチュエータごとに学習ポリシーを学習することで、多関節ロボットの制御を分散化する。
ロボット制御におけるDoFの冗長性を利用したSOLAR(Synergy-Oriented LeARning)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-26T16:01:31Z) - DMAP: a Distributed Morphological Attention Policy for Learning to
Locomote with a Changing Body [126.52031472297413]
本稿では,生物学的に着想を得たポリシーネットワークアーキテクチャであるDMAPを紹介する。
主観的状態に基づく制御ポリシは,高度に可変な身体構成では不十分であることを示す。
DMAPは、すべての考慮された環境において、全体的な一致またはオラクルエージェントのパフォーマンスを超越して、エンドツーエンドで訓練することができる。
論文 参考訳(メタデータ) (2022-09-28T16:45:35Z) - DEP-RL: Embodied Exploration for Reinforcement Learning in Overactuated
and Musculoskeletal Systems [14.295720603503806]
大規模な筋骨格モデルの強化学習は、同様の性能を示すことができない。
我々は、大きな過度な作用空間における非効率な探索が重要な問題であると予想する。
筋骨格系において,DEPをRLに統合することにより,手を伸ばしたり移動したりする学習を高速に行うことができる。
論文 参考訳(メタデータ) (2022-05-30T15:52:54Z) - Weakly Supervised Disentangled Representation for Goal-conditioned
Reinforcement Learning [15.698612710580447]
本稿では,サンプル効率の向上と政策一般化を目的としたスキル学習フレームワークDR-GRLを提案する。
本稿では,解釈可能かつ制御可能な表現を学習するための空間変換オートエンコーダ(STAE)を提案する。
DR-GRLは, 試料効率と政策一般化において, 従来の手法よりも有意に優れていたことを実証的に実証した。
論文 参考訳(メタデータ) (2022-02-28T09:05:14Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - On the Emergence of Whole-body Strategies from Humanoid Robot
Push-recovery Learning [32.070068456106895]
シミュレーション環境における汎用的で堅牢なヒューマノイドプッシュリカバリポリシーのトレーニングに,モデルフリーな深層強化学習を適用する。
本手法は高次元全体ヒューマノイド制御を目標とし,iCubヒューマノイド上で検証を行った。
論文 参考訳(メタデータ) (2021-04-29T17:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。