Fugu-MT 論文翻訳(概要): SAR: Generalization of Physiological Agility and Dexterity via Synergistic Action Representation

論文の概要: SAR: Generalization of Physiological Agility and Dexterity via Synergistic Action Representation

arxiv url: http://arxiv.org/abs/2307.03716v2
Date: Fri, 14 Jul 2023 05:35:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-17 16:19:29.026436
Title: SAR: Generalization of Physiological Agility and Dexterity via Synergistic Action Representation
Title（参考訳）: SAR: 相乗的行動表現による生理的アジリティとデクスタリティの一般化
Authors: Cameron Berg, Vittorio Caggiano, Vikash Kumar
Abstract要約: 筋シナジーによるモジュラー制御は、生物がシンプルで一般化可能な行動空間で筋肉制御を学習することを可能にすることを示す。より単純なタスクから獲得したSAR(Synergistic Action Representation)が、より複雑なタスクを学習するのに役立つ範囲を決定するためのテストベッドとして、生理学的に正確な人手と足のモデルを用いている。いずれの場合も,SAR公開政策がエンドツーエンドの強化学習を著しく上回っていることが判明した。
参考スコア（独自算出の注目度）: 10.349135207285464
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Learning effective continuous control policies in high-dimensional systems, including musculoskeletal agents, remains a significant challenge. Over the course of biological evolution, organisms have developed robust mechanisms for overcoming this complexity to learn highly sophisticated strategies for motor control. What accounts for this robust behavioral flexibility? Modular control via muscle synergies, i.e. coordinated muscle co-contractions, is considered to be one putative mechanism that enables organisms to learn muscle control in a simplified and generalizable action space. Drawing inspiration from this evolved motor control strategy, we use physiologically accurate human hand and leg models as a testbed for determining the extent to which a Synergistic Action Representation (SAR) acquired from simpler tasks facilitates learning more complex tasks. We find in both cases that SAR-exploiting policies significantly outperform end-to-end reinforcement learning. Policies trained with SAR were able to achieve robust locomotion on a wide set of terrains with high sample efficiency, while baseline approaches failed to learn meaningful behaviors. Additionally, policies trained with SAR on a multiobject manipulation task significantly outperformed (>70% success) baseline approaches (<20% success). Both of these SAR-exploiting policies were also found to generalize zero-shot to out-of-domain environmental conditions, while policies that did not adopt SAR failed to generalize. Finally, we establish the generality of SAR on broader high-dimensional control problems using a robotic manipulation task set and a full-body humanoid locomotion task. To the best of our knowledge, this investigation is the first of its kind to present an end-to-end pipeline for discovering synergies and using this representation to learn high-dimensional continuous control across a wide diversity of tasks.
Abstract（参考訳）: 筋骨格剤を含む高次元システムにおける効果的な連続制御政策の学習は依然として重要な課題である。生物進化の過程で、生物はこの複雑さを克服し、高度に洗練された運動制御戦略を学ぶためのロバストなメカニズムを開発してきた。この堅牢な行動の柔軟性の原因は何でしょう? 筋シナジー、すなわち協調筋のココントラクションによる調節は、生物がシンプルで一般化可能な行動空間で筋肉の制御を学習することを可能にする1つの機構であると考えられている。この進化した運動制御戦略からインスピレーションを得て、より単純なタスクから獲得したSAR(Synergistic Action Representation)がより複雑なタスクを学習しやすくするためのテストベッドとして、生理学的に正確な人手と足のモデルを使用する。いずれの場合も,SAR公開政策がエンドツーエンドの強化学習を著しく上回ることがわかった。 SARで訓練された政策は、サンプル効率の高い広い地形で堅牢な移動を達成することができ、ベースラインアプローチは意味のある行動を学ぶことができなかった。さらに、マルチオブジェクト操作タスクでsarでトレーニングされたポリシーは、ベースラインアプローチ(70%以上の成功)を大きく上回っている(20%の成功)。これらのSAR-Exploitingポリシーはどちらもゼロショットをドメイン外の環境条件に一般化するが、SARを採用しないポリシーは一般化しなかった。最後に,ロボット操作タスクセットとフルボディヒューマノイド移動タスクを用いて,より広い高次元制御問題に対するSARの一般性を確立する。我々の知る限りでは、この研究は、シナジーを発見し、この表現を用いて幅広いタスクにわたる高次元連続制御を学習するためのエンドツーエンドパイプラインを初めて提示するものである。

関連論文リスト

Deep RL Needs Deep Behavior Analysis: Exploring Implicit Planning by Model-Free Agents in Open-Ended Environments [1.6576957162725725]
神経科学と倫理学のツールを応用し、新しい、複雑で部分的に観察可能な環境でDRLエージェントを研究する。我々はこの環境をエージェントに共同行動分析とニューラル分析を適用するためのプラットフォームとして利用する。一般的な仮定とは対照的に、モデルのないRNNベースのDRLエージェントは、構造化された計画的な振る舞いを示すことができる。
論文参考訳（メタデータ） (2025-06-08T03:43:48Z)
COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping [56.907940167333656]
集積ロボットグルーピングは、表面衝突などの環境制約により、所望のグルーピングポーズが運動的に不可能な場所である。従来のロボット操作アプローチは、人間が一般的に使用する非包括的または双対的戦略の複雑さに苦しむ。本稿では,2つの協調ポリシーを活用する学習ベースアプローチであるCOMBO-Grasp(Constraint-based Manipulation for Bimanual Occluded Grasping)を紹介する。
論文参考訳（メタデータ） (2025-02-12T01:31:01Z)
CAIMAN: Causal Action Influence Detection for Sample-efficient Loco-manipulation [17.94272840532448]
我々は,ロボットが環境内の他のエンティティを制御できるようにする強化学習フレームワークであるCAIMANを提案する。シミュレーションにおけるCAIMANの優れたサンプル効率と多様なシナリオへの適応性を実証的に実証した。
論文参考訳（メタデータ） (2025-02-02T16:16:53Z)
RILe: Reinforced Imitation Learning [60.63173816209543]
RILe(Reinforced Learning)は、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文参考訳（メタデータ） (2024-06-12T17:56:31Z)
LGR2: Language Guided Reward Relabeling for Accelerating Hierarchical Reinforcement Learning [22.99690700210957]
言語命令を利用して,より高レベルなポリシーのための静的報酬関数を生成する新しいHRLフレームワークを提案する。言語誘導報酬はより低い原始的な振る舞いに影響されないため、LGR2は非定常性を緩和する。弊社のアプローチは、難易度の高いスパークリワードロボットナビゲーションと操作環境において、70ドル以上の成功率を達成した。
論文参考訳（メタデータ） (2024-06-09T18:40:24Z)
Twisting Lids Off with Two Hands [82.21668778600414]
シミュレーションで訓練された政策を実世界へ効果的かつ効率的に移行する方法を示す。具体的には,ボトル状物体の蓋を両手でねじる問題について考察する。これは、バイマガル・マルチフィンガーハンドでそのような機能を実現する最初のsim-to-real RLシステムである。
論文参考訳（メタデータ） (2024-03-04T18:59:30Z)
RObotic MAnipulation Network (ROMAN) $\unicode{x2013}$ Hybrid Hierarchical Learning for Solving Complex Sequential Tasks [70.69063219750952]
ロボットマニピュレーションネットワーク(ROMAN)のハイブリッド階層型学習フレームワークを提案する。 ROMANは、行動クローニング、模倣学習、強化学習を統合することで、タスクの汎用性と堅牢な障害回復を実現する。実験結果から,これらの専門的な操作専門家の組織化と活性化により,ROMANは高度な操作タスクの長いシーケンスを達成するための適切なシーケンシャルなアクティベーションを生成することがわかった。
論文参考訳（メタデータ） (2023-06-30T20:35:22Z)
Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。 LATent TIme-Correlated Exploration (Lattice)を提案する。
論文参考訳（メタデータ） (2023-05-31T17:40:43Z)
Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。 ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文参考訳（メタデータ） (2023-03-16T20:09:47Z)
Low-Rank Modular Reinforcement Learning via Muscle Synergy [25.120547719120765]
モジュール強化学習(RL)は、アクチュエータごとに学習ポリシーを学習することで、多関節ロボットの制御を分散化する。ロボット制御におけるDoFの冗長性を利用したSOLAR(Synergy-Oriented LeARning)フレームワークを提案する。
論文参考訳（メタデータ） (2022-10-26T16:01:31Z)
DMAP: a Distributed Morphological Attention Policy for Learning to Locomote with a Changing Body [126.52031472297413]
本稿では,生物学的に着想を得たポリシーネットワークアーキテクチャであるDMAPを紹介する。主観的状態に基づく制御ポリシは,高度に可変な身体構成では不十分であることを示す。 DMAPは、すべての考慮された環境において、全体的な一致またはオラクルエージェントのパフォーマンスを超越して、エンドツーエンドで訓練することができる。
論文参考訳（メタデータ） (2022-09-28T16:45:35Z)
DEP-RL: Embodied Exploration for Reinforcement Learning in Overactuated and Musculoskeletal Systems [14.295720603503806]
大規模な筋骨格モデルの強化学習は、同様の性能を示すことができない。我々は、大きな過度な作用空間における非効率な探索が重要な問題であると予想する。筋骨格系において,DEPをRLに統合することにより,手を伸ばしたり移動したりする学習を高速に行うことができる。
論文参考訳（メタデータ） (2022-05-30T15:52:54Z)
Weakly Supervised Disentangled Representation for Goal-conditioned Reinforcement Learning [15.698612710580447]
本稿では,サンプル効率の向上と政策一般化を目的としたスキル学習フレームワークDR-GRLを提案する。本稿では,解釈可能かつ制御可能な表現を学習するための空間変換オートエンコーダ(STAE)を提案する。 DR-GRLは, 試料効率と政策一般化において, 従来の手法よりも有意に優れていたことを実証的に実証した。
論文参考訳（メタデータ） (2022-02-28T09:05:14Z)
Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。 VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文参考訳（メタデータ） (2021-07-27T16:39:45Z)
On the Emergence of Whole-body Strategies from Humanoid Robot Push-recovery Learning [32.070068456106895]
シミュレーション環境における汎用的で堅牢なヒューマノイドプッシュリカバリポリシーのトレーニングに,モデルフリーな深層強化学習を適用する。本手法は高次元全体ヒューマノイド制御を目標とし,iCubヒューマノイド上で検証を行った。
論文参考訳（メタデータ） (2021-04-29T17:49:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。