論文の概要: LS3: Latent Space Safe Sets for Long-Horizon Visuomotor Control of
Iterative Tasks
- arxiv url: http://arxiv.org/abs/2107.04775v1
- Date: Sat, 10 Jul 2021 06:46:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-14 08:58:25.061512
- Title: LS3: Latent Space Safe Sets for Long-Horizon Visuomotor Control of
Iterative Tasks
- Title(参考訳): ls3: 反復タスクのロングホリゾン・バイスモータ制御のための潜在空間セーフセット
- Authors: Albert Wilcox and Ashwin Balakrishna and Brijen Thananjeyan and Joseph
E. Gonzalez and Ken Goldberg
- Abstract要約: 強化学習アルゴリズムは、複雑で長期のタスクを学習する高次元環境の探索において、驚くべき成功を収めた。
動的に不確実な環境での安全な学習のための有望な戦略は、エージェントが確実にタスク成功を保証できる状態に戻ることを要求することである。
本稿では、この戦略を、画像観察による反復的、長期的タスクに拡張するLatent Space Safe Sets (LS3)を提案する。
- 参考スコア(独自算出の注目度): 28.287631944795823
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) algorithms have shown impressive success in
exploring high-dimensional environments to learn complex, long-horizon tasks,
but can often exhibit unsafe behaviors and require extensive environment
interaction when exploration is unconstrained. A promising strategy for safe
learning in dynamically uncertain environments is requiring that the agent can
robustly return to states where task success (and therefore safety) can be
guaranteed. While this approach has been successful in low-dimensions,
enforcing this constraint in environments with high-dimensional state spaces,
such as images, is challenging. We present Latent Space Safe Sets (LS3), which
extends this strategy to iterative, long-horizon tasks with image observations
by using suboptimal demonstrations and a learned dynamics model to restrict
exploration to the neighborhood of a learned Safe Set where task completion is
likely. We evaluate LS3 on 4 domains, including a challenging sequential
pushing task in simulation and a physical cable routing task. We find that LS3
can use prior task successes to restrict exploration and learn more efficiently
than prior algorithms while satisfying constraints. See
https://tinyurl.com/latent-ss for code and supplementary material.
- Abstract(参考訳): 強化学習(rl)アルゴリズムは、複雑な長時間ホリゾンタスクを学習するために高次元環境を探索することに成功したが、しばしば安全でない振る舞いを示し、探索が制限されていない場合に広範な環境相互作用を必要とする。
動的に不確実な環境での安全な学習のための有望な戦略は、エージェントが確実にタスク成功(したがって安全)を保証できる状態に戻ることを要求することである。
このアプローチは低次元環境では成功したが、画像などの高次元状態空間を持つ環境ではこの制約を強制することは困難である。
そこで我々は,この手法を拡張した潜在空間セーフセット(ls3)を,準最適実演と学習力学モデルを用いて画像観察を伴う反復的・長期ホリゾンタスクに拡張し,タスク完了の可能性のある学習されたセーフセットの近傍への探索を制限する。
シミュレーションにおける逐次プッシュタスクや物理的ケーブルルーティングタスクを含む4つの領域におけるLS3の評価を行った。
LS3は事前のタスク成功を利用して探索を制限し、制約を満たしながら事前のアルゴリズムよりも効率的に学習できることが判明した。
コードと補足材料については https://tinyurl.com/latent-ss をご覧ください。
関連論文リスト
- Spatial Reasoning and Planning for Deep Embodied Agents [2.7195102129095003]
この論文は空間的推論と計画タスクのためのデータ駆動手法の開発を探求する。
学習効率、解釈可能性、新しいシナリオ間の伝達可能性の向上に重点を置いている。
論文 参考訳(メタデータ) (2024-09-28T23:05:56Z) - Safe Guaranteed Exploration for Non-linear Systems [44.2908666969021]
本稿では,最適制御を用いた新しい安全な探索フレームワークを提案する。
本稿では,モデル予測制御を用いた効率的なSageMPC,SAfe保証探索手法を提案する。
自動車モデルを用いたSageMPCを用いた未知環境の安全な探索実験を行った。
論文 参考訳(メタデータ) (2024-02-09T17:26:26Z) - Mission-driven Exploration for Accelerated Deep Reinforcement Learning
with Temporal Logic Task Specifications [11.812602599752294]
未知の構造を持つ環境で動作している未知のダイナミクスを持つロボットについて考察する。
我々の目標は、オートマトン符号化されたタスクを満足する確率を最大化する制御ポリシーを合成することである。
そこで本研究では,制御ポリシーを類似手法と比較して顕著に高速に学習できるDRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-28T18:59:58Z) - Generalizable Long-Horizon Manipulations with Large Language Models [91.740084601715]
本研究は,Large Language Models (LLMs) の機能を活用して,汎用可能な長距離操作のための原始的なタスク条件を生成するフレームワークを導入する。
我々は,Pybulletに基づくロボット操作タスクスイートを作成し,長期作業評価を行う。
論文 参考訳(メタデータ) (2023-10-03T17:59:46Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Skill-based Meta-Reinforcement Learning [65.31995608339962]
本研究では,長期的スパース・リワードタスクにおけるメタラーニングを実現する手法を提案する。
私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
論文 参考訳(メタデータ) (2022-04-25T17:58:19Z) - Successor Feature Landmarks for Long-Horizon Goal-Conditioned
Reinforcement Learning [54.378444600773875]
大規模で高次元の環境を探索するフレームワークであるSFL(Successor Feature Landmarks)を紹介する。
SFLは、状態のノベルティを推定して探索を推進し、状態空間を非パラメトリックなランドマークベースのグラフとして抽象化することで、高レベルな計画を可能にする。
我々は,MiniGrid と ViZDoom の実験において,SFL が大規模高次元状態空間の効率的な探索を可能にすることを示す。
論文 参考訳(メタデータ) (2021-11-18T18:36:05Z) - Discovering and Exploiting Sparse Rewards in a Learned Behavior Space [0.46736439782713946]
スパース報酬設定における最適ポリシーの学習は、学習エージェントが行動の質に対するフィードバックをほとんど、あるいは全く持っていないため困難である。
STAXは, 与えられた報酬を効率的に最適化しつつ, 行動空間を学習し, 探索するために設計されたアルゴリズムである。
論文 参考訳(メタデータ) (2021-11-02T22:21:11Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z) - Broadly-Exploring, Local-Policy Trees for Long-Horizon Task Planning [12.024736761925864]
現実的な環境での長期計画には、高次元状態空間における逐次的なタスクを推論する能力が必要である。
本稿では,タスク条件付きモデルベースツリー探索であるBroadly-Exploring-Local-policy Trees (BELT)を提案する。
BELTは、目標条件付きポリシーを順に計画し、堅牢な計画を生成することができるように実験的に実証されている。
論文 参考訳(メタデータ) (2020-10-13T15:51:24Z) - Weakly-Supervised Reinforcement Learning for Controllable Behavior [126.04932929741538]
強化学習(Reinforcement Learning、RL)は、タスクを解決するために行動を取るための学習のための強力なフレームワークである。
多くの設定において、エージェントは、現在解決するよう求められている単一のタスクに対して、不可能なほど大きなタスク空間を放棄しなければならない。
我々は,この意味論的意味のあるタスクのサブスペースを,非意味的な「チャフ」タスクの巨大な空間から自動的に切り離すために,弱い監督を利用するフレームワークを導入する。
論文 参考訳(メタデータ) (2020-04-06T17:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。