論文の概要: RecoveryChaining: Learning Local Recovery Policies for Robust Manipulation
- arxiv url: http://arxiv.org/abs/2410.13979v1
- Date: Thu, 17 Oct 2024 19:14:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:24:37.444690
- Title: RecoveryChaining: Learning Local Recovery Policies for Robust Manipulation
- Title(参考訳): Recovery Chaining:ロバスト操作のためのローカルリカバリポリシーの学習
- Authors: Shivam Vats, Devesh K. Jha, Maxim Likhachev, Oliver Kroemer, Diego Romeres,
- Abstract要約: 本稿では,ロボットの回復方針を個別に学習するために階層的強化学習を提案する。
回復方針は、感覚観測に基づいて故障が検出されたときに起動され、ロボットをタスクを完了できる状態に導こうとする。
提案手法は,3段階の多段階操作タスクにおいて,低報酬で評価し,ベースラインで学習したものよりもはるかに堅牢な回復ポリシーを学習する。
- 参考スコア(独自算出の注目度): 41.38308130776887
- License:
- Abstract: Model-based planners and controllers are commonly used to solve complex manipulation problems as they can efficiently optimize diverse objectives and generalize to long horizon tasks. However, they are limited by the fidelity of their model which oftentimes leads to failures during deployment. To enable a robot to recover from such failures, we propose to use hierarchical reinforcement learning to learn a separate recovery policy. The recovery policy is triggered when a failure is detected based on sensory observations and seeks to take the robot to a state from which it can complete the task using the nominal model-based controllers. Our approach, called RecoveryChaining, uses a hybrid action space, where the model-based controllers are provided as additional \emph{nominal} options which allows the recovery policy to decide how to recover, when to switch to a nominal controller and which controller to switch to even with \emph{sparse rewards}. We evaluate our approach in three multi-step manipulation tasks with sparse rewards, where it learns significantly more robust recovery policies than those learned by baselines. Finally, we successfully transfer recovery policies learned in simulation to a physical robot to demonstrate the feasibility of sim-to-real transfer with our method.
- Abstract(参考訳): モデルベースのプランナーとコントローラは、様々な目的を効率的に最適化し、長い地平線タスクに一般化できるため、複雑な操作問題を解決するために一般的に使用される。
しかし、それらはモデルの忠実さによって制限され、しばしばデプロイメント中に失敗につながる。
このような障害からロボットが回復できるようにするために,階層的強化学習を用いて個別の回復方針を学習することを提案する。
回復方針は、感覚観測に基づいて故障が検出されたときに起動され、名目モデルベースコントローラを用いてタスクを完了できる状態までロボットを取り込もうとする。
我々のアプローチはRecoveryChainingと呼ばれるハイブリッドアクション空間を使用し、モデルベースのコントローラを追加の \emph{nominal} オプションとして提供し、リカバリポリシーがリカバリ方法を決定できる。
提案手法は,3段階の多段階操作タスクにおいて,低報酬で評価し,ベースラインで学習したものよりもはるかに堅牢な回復ポリシーを学習する。
最後に,シミュレーションで学習したリカバリポリシーを物理ロボットに転送し,シム・トゥ・リアル・トランスファーの実現可能性を示す。
関連論文リスト
- Adaptable Recovery Behaviors in Robotics: A Behavior Trees and Motion Generators(BTMG) Approach for Failure Management [0.0]
本稿では,リカバリ動作を適応可能なロボット技術としてモデル化し,行動木と動作生成器(BTMG)フレームワークをポリシー表現に活用する手法を提案する。
我々は,ペグ・イン・ア・ホール作業における一連の段階的なシナリオを通じて方法論を評価し,ロボットの協調作業における作業効率の向上とタスク成功率の向上に対するアプローチの有効性を実証した。
論文 参考訳(メタデータ) (2024-04-09T08:56:43Z) - Recover: A Neuro-Symbolic Framework for Failure Detection and Recovery [2.0554045007430672]
本稿では,オンライン障害識別と回復のためのニューロシンボリック・フレームワークであるRecoverを紹介する。
論理ルールとLLMベースのプランナを統合することで、Recoverはシンボル情報を利用してLLMの回復計画を生成する能力を高める。
論文 参考訳(メタデータ) (2024-03-31T17:54:22Z) - Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。
我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文 参考訳(メタデータ) (2024-03-21T11:54:45Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous
Manipulation [61.7171775202833]
本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。
我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。
本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
論文 参考訳(メタデータ) (2023-09-06T19:05:31Z) - Efficiently Learning Recoveries from Failures Under Partial
Observability [31.891933360081342]
本稿では,サンプル効率のよい操作戦略を構築するための一般的な手法を提案する。
当社のアプローチは,現在の戦略の障害モードを最初に発見することで,ロバストネスを漸進的に向上します。
提案手法は, ドア開きの回復スキルを学習し, シミュレーションと実際のロボットを用いて, 微調整をほとんど行わずに評価する。
論文 参考訳(メタデータ) (2022-09-27T18:00:55Z) - Automating Reinforcement Learning with Example-based Resets [19.86233948960312]
既存の強化学習アルゴリズムは、エージェントが各エピソードの最後に固定された初期状態分布にリセットするエピソード設定を仮定する。
本稿では,自己指導型リセット学習を行うエージェントを導入することで,従来の強化学習をより大きな自律性に向けて拡張することを提案する。
シミュレーションおよび実世界の連続制御タスクをスクラッチから学習するために本手法を適用し,手動リセットを減らすために,リセットエージェントがうまく学習できることを実証する。
論文 参考訳(メタデータ) (2022-04-05T08:12:42Z) - Residual Reinforcement Learning from Demonstrations [51.56457466788513]
報酬信号の最大化のために,従来のフィードバックコントローラからの制御動作を適用することで,ロボット作業の課題を解決する手段として,残留強化学習(Residual reinforcement learning, RL)が提案されている。
視覚的インプットから学習するための残差定式化を拡張し,実演を用いて報酬をスパースする。
6-DoFのUR5アームと28-DoFのデキスタラスハンドのシミュレーション操作に関する実験的評価は、デモからの残留RLが、行動クローニングやRL微調整よりも柔軟に、見えない環境条件に一般化できることを実証している。
論文 参考訳(メタデータ) (2021-06-15T11:16:49Z) - Recovery command generation towards automatic recovery in ICT systems by
Seq2Seq learning [11.387419806996599]
本稿では,ニューラルネットワークモデルであるSeq2Seqを用いて,回復コマンドを推定する手法を提案する。
新たな障害が発生した場合、収集したログに基づいて、障害から回復する有効なコマンドを推定する。
論文 参考訳(メタデータ) (2020-03-24T11:34:10Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。