論文の概要: COMPOSER: Scalable and Robust Modular Policies for Snake Robots
- arxiv url: http://arxiv.org/abs/2310.00871v1
- Date: Mon, 2 Oct 2023 03:20:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 23:33:02.686464
- Title: COMPOSER: Scalable and Robust Modular Policies for Snake Robots
- Title(参考訳): CompOSER:スネークロボットのためのスケーラブルでロバストなモジュラーポリシー
- Authors: Yuyou Zhang, Yaru Niu, Xingyu Liu, Ding Zhao
- Abstract要約: スネークロボットは環境との相互作用において顕著なコンプライアンスと適応性を持っている。
我々は,ヘビロボットの高次元性を効果的に破壊する制御ポリシーの開発を目指している。
低レベルの制御政策を導くために、追加の報酬を提供するために、高レベルのイマジネーションポリシーが提案されている。
- 参考スコア(独自算出の注目度): 33.19973755461351
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Snake robots have showcased remarkable compliance and adaptability in their
interaction with environments, mirroring the traits of their natural
counterparts. While their hyper-redundant and high-dimensional characteristics
add to this adaptability, they also pose great challenges to robot control.
Instead of perceiving the hyper-redundancy and flexibility of snake robots as
mere challenges, there lies an unexplored potential in leveraging these traits
to enhance robustness and generalizability at the control policy level. We seek
to develop a control policy that effectively breaks down the high
dimensionality of snake robots while harnessing their redundancy. In this work,
we consider the snake robot as a modular robot and formulate the control of the
snake robot as a cooperative Multi-Agent Reinforcement Learning (MARL) problem.
Each segment of the snake robot functions as an individual agent. Specifically,
we incorporate a self-attention mechanism to enhance the cooperative behavior
between agents. A high-level imagination policy is proposed to provide
additional rewards to guide the low-level control policy. We validate the
proposed method COMPOSER with five snake robot tasks, including goal reaching,
wall climbing, shape formation, tube crossing, and block pushing. COMPOSER
achieves the highest success rate across all tasks when compared to a
centralized baseline and four modular policy baselines. Additionally, we show
enhanced robustness against module corruption and significantly superior
zero-shot generalizability in our proposed method. The videos of this work are
available on our project page: https://sites.google.com/view/composer-snake/.
- Abstract(参考訳): スネークロボットは環境との相互作用において顕著なコンプライアンスと適応性を示しており、その特性を反映している。
その超冗長で高次元な特性は適応性を高めるが、ロボットの制御には大きな課題がある。
ヘビロボットの超冗長性と柔軟性を単なる課題として捉えるのではなく、これらの特性を活用して、コントロールポリシーレベルでの堅牢性と一般化性を高める、未解明の可能性を秘めている。
我々は,ヘビロボットの冗長性を活用しつつ,高次元性を効果的に破壊するコントロールポリシーの開発を目指している。
本研究では,ヘビロボットをモジュール型ロボットとみなし,ヘビロボットの制御を協調的マルチエージェント強化学習(MARL)問題として定式化する。
スネークロボットの各セグメントは、個々のエージェントとして機能する。
具体的には,エージェント間の協調行動を高めるための自己注意機構を組み込んだ。
低レベルの制御政策を導くための追加報酬を提供するため、高レベルのイマジネーションポリシーが提案されている。
提案手法は,目標到達,壁登り,形状形成,管交差,ブロック押圧を含む5つのヘビロボットタスクを用いて検証した。
COMPOSERは、集中型ベースラインと4つのモジュラポリシーベースラインと比較して、すべてのタスクで最高の成功率を達成する。
さらに,モジュールの破損に対するロバスト性の向上と,提案手法のゼロショット一般化性に優れることを示す。
この作業のビデオは、プロジェクトページ(https://sites.google.com/view/composer-snake/)で公開されている。
関連論文リスト
- $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。
視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。
ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文 参考訳(メタデータ) (2024-07-11T17:31:01Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - Learning Vision-based Pursuit-Evasion Robot Policies [54.52536214251999]
我々は、部分的に観察可能なロボットの監督を生成する完全観測可能なロボットポリシーを開発する。
我々は、RGB-Dカメラを搭載した4足歩行ロボットに、野生での追従回避のインタラクションにポリシーを展開させる。
論文 参考訳(メタデータ) (2023-08-30T17:59:05Z) - Nonprehensile Planar Manipulation through Reinforcement Learning with
Multimodal Categorical Exploration [8.343657309038285]
強化学習はそのようなロボットコントローラを開発するための強力なフレームワークである。
分類分布を用いたマルチモーダル探索手法を提案する。
学習したポリシは外部の障害や観測ノイズに対して堅牢であり、複数のプッシュ器でタスクにスケールできることが示される。
論文 参考訳(メタデータ) (2023-08-04T16:55:00Z) - Polybot: Training One Policy Across Robots While Embracing Variability [70.74462430582163]
複数のロボットプラットフォームにデプロイするための単一のポリシーをトレーニングするための重要な設計決定セットを提案する。
われわれのフレームワークは、まず、手首カメラを利用して、我々のポリシーの観察空間と行動空間を具体化して調整する。
6つのタスクと3つのロボットにまたがる60時間以上のデータセットを用いて,関節の形状や大きさの異なるデータセットの評価を行った。
論文 参考訳(メタデータ) (2023-07-07T17:21:16Z) - Bi-Manual Manipulation and Attachment via Sim-to-Real Reinforcement
Learning [23.164743388342803]
シミュレーションで訓練された強化学習を用いて,両手作業の解法について検討する。
また、RLポリシーの効果的なトレーニングにつながるシミュレーション環境の変更についても検討する。
本研究では,2つのロボットアームが磁気的接続点を持つ2つのブロックを拾い上げるための接続タスクを設計する。
論文 参考訳(メタデータ) (2022-03-15T21:49:20Z) - REvolveR: Continuous Evolutionary Models for Robot-to-robot Policy
Transfer [57.045140028275036]
本研究では,運動学や形態学など,異なるパラメータを持つ2つの異なるロボット間でポリシーを伝達する問題を考察する。
模倣学習手法を含む動作や状態遷移の分布を一致させることで、新しいポリシーを訓練する既存のアプローチは、最適な動作や/または状態分布が異なるロボットでミスマッチしているために失敗する。
本稿では,物理シミュレータに実装されたロボット政策伝達に連続的進化モデルを用いることで,$RevolveR$という新しい手法を提案する。
論文 参考訳(メタデータ) (2022-02-10T18:50:25Z) - Decentralized Global Connectivity Maintenance for Multi-Robot
Navigation: A Reinforcement Learning Approach [12.649986200029717]
本研究では、接続性を維持しながら、未知の環境でマルチロボットチームをナビゲートする方法を検討する。
複数のロボット間で共有される分散型ポリシーを開発するための強化学習手法を提案する。
接続制約と行動クローニングの異なる組み合わせを比較することで,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2021-09-17T13:20:19Z) - An Energy-Saving Snake Locomotion Gait Policy Using Deep Reinforcement
Learning [0.0]
この研究では、エネルギー効率の高い制御のための深層強化学習(DRL)を介してヘビの移動歩行政策を開発する。
角速度でパラメータ化された各関節モータに近位政策最適化(ppo)を適用し,drlエージェントは各時間ステップで標準サーペノイド曲線を学習する。
従来の制御戦略と比較して、訓練されたppoエージェントによって制御されたスネークロボットは、より速く動き、よりエネルギー効率の良い歩行を実現できる。
論文 参考訳(メタデータ) (2021-03-08T02:06:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。