論文の概要: TAMPC: A Controller for Escaping Traps in Novel Environments
- arxiv url: http://arxiv.org/abs/2010.12516v3
- Date: Wed, 3 Feb 2021 18:22:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 00:02:15.455099
- Title: TAMPC: A Controller for Escaping Traps in Novel Environments
- Title(参考訳): TAMPC: 新たな環境におけるトラップの回避制御
- Authors: Sheng Zhong (1), Zhenyuan Zhang (1), Nima Fazeli (1), Dmitry Berenson
(1) ((1) Robotics Institute, University of Michigan)
- Abstract要約: ランダムに収集したトレーニングセットからトラップのないシステムのダイナミクスを学習する。
予期せぬトラップが実行中に発生すると、ダイナミックスとコントロール戦略に適応する方法を見つけなければなりません。
提案手法であるTap-Aware Model Predictive Control (TAMPC) は2段階階層制御アルゴリズムである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an approach to online model adaptation and control in the
challenging case of hybrid and discontinuous dynamics where actions may lead to
difficult-to-escape "trap" states, under a given controller. We first learn
dynamics for a system without traps from a randomly collected training set
(since we do not know what traps will be encountered online). These "nominal"
dynamics allow us to perform tasks in scenarios where the dynamics matches the
training data, but when unexpected traps arise in execution, we must find a way
to adapt our dynamics and control strategy and continue attempting the task.
Our approach, Trap-Aware Model Predictive Control (TAMPC), is a two-level
hierarchical control algorithm that reasons about traps and non-nominal
dynamics to decide between goal-seeking and recovery policies. An important
requirement of our method is the ability to recognize nominal dynamics even
when we encounter data that is out-of-distribution w.r.t the training data. We
achieve this by learning a representation for dynamics that exploits invariance
in the nominal environment, thus allowing better generalization. We evaluate
our method on simulated planar pushing and peg-in-hole as well as real robot
peg-in-hole problems against adaptive control, reinforcement learning,
trap-handling baselines, where traps arise due to unexpected obstacles that we
only observe through contact. Our results show that our method outperforms the
baselines on difficult tasks, and is comparable to prior trap-handling methods
on easier tasks.
- Abstract(参考訳): 本稿では, オンラインモデル適応と制御へのアプローチを提案し, 与えられた制御の下で, 動作が「トラップ」状態に陥る可能性のある, ハイブリッド・不連続力学の挑戦事例について述べる。
まず、ランダムに収集されたトレーニングセットからトラップを使わずにシステムのダイナミクスを学習します。
これらの"nominal"なダイナミクスは、ダイナミックがトレーニングデータにマッチするシナリオでタスクを実行することができますが、予期せぬトラップが実行時に発生すれば、ダイナミックスとコントロール戦略に適応し、タスクを継続する方法を見つけなければなりません。
提案手法であるTrap-Aware Model Predictive Control (TAMPC) は,トラップと非線形ダイナミクスを理由として,目標探索とリカバリポリシを決定する2段階階層制御アルゴリズムである。
本手法の重要な要件は,トレーニングデータに対して分布外であるデータに遭遇しても,名目力学を認識できることである。
我々は,公称環境における不変性を利用したダイナミクス表現を学習することで,より良い一般化を実現する。
適応制御, 強化学習, トラップ処理ベースラインに対する実際のロボットペグインホール問題に対して, 接触を通してのみ観測される予期せぬ障害物によりトラップが発生する場合のシミュレーション平面押出とペグインホールの手法を評価した。
その結果,本手法は難解なタスクのベースラインよりも優れており,より簡単なタスクのトラップ処理手法に匹敵することがわかった。
関連論文リスト
- Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Let Offline RL Flow: Training Conservative Agents in the Latent Space of
Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。
我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。
提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文 参考訳(メタデータ) (2022-11-20T21:57:10Z) - Active Learning of Discrete-Time Dynamics for Uncertainty-Aware Model
Predictive Control [49.60520501097199]
本稿では,非線形ロボットシステムの力学を積極的にモデル化する自己教師型学習手法を提案する。
我々のアプローチは、目に見えない飛行条件に一貫して適応することで、高いレジリエンスと一般化能力を示す。
論文 参考訳(メタデータ) (2022-10-23T00:45:05Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Learning Variable Impedance Control for Aerial Sliding on Uneven
Heterogeneous Surfaces by Proprioceptive and Tactile Sensing [42.27572349747162]
本研究では,空中すべり作業に対する学習に基づく適応制御手法を提案する。
提案するコントローラ構造は,データ駆動制御とモデルベース制御を組み合わせたものである。
美術品間相互作用制御手法の微調整状態と比較して,追従誤差の低減と外乱拒否の改善を実現した。
論文 参考訳(メタデータ) (2022-06-28T16:28:59Z) - Learning Pneumatic Non-Prehensile Manipulation with a Mobile Blower [30.032847855193864]
管制官は 常に 行動の予期せぬ変化に 適応しなければならない。
本稿では,空間行動マップフレームワークのマルチ周波数バージョンを紹介する。
これにより、高レベルの計画と低レベルのクローズドループ制御を効果的に組み合わせたビジョンベースのポリシーの効率的な学習が可能になる。
論文 参考訳(メタデータ) (2022-04-05T17:55:58Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z) - Multi-Task Reinforcement Learning based Mobile Manipulation Control for
Dynamic Object Tracking and Grasping [17.2022039806473]
汎用的な動的物体追跡と把握を実現するために,マルチタスク強化学習に基づく移動体操作制御フレームワークを提案する。
実験の結果、トレーニングされたポリシーは、約0.1mの追跡誤差と75%の達成率で、目に見えないランダムなダイナミックな軌道に適応できることがわかった。
論文 参考訳(メタデータ) (2020-06-07T21:18:36Z) - Online Constrained Model-based Reinforcement Learning [13.362455603441552]
主要な要件は、限られた時間とリソース予算内に留まりながら、継続的な状態とアクションスペースを扱う能力である。
本稿では,ガウス過程回帰と回帰水平制御を組み合わせたモデルに基づくアプローチを提案する。
本研究では,自動走行作業におけるオンライン学習のメリットを実証する。
論文 参考訳(メタデータ) (2020-04-07T15:51:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。