論文の概要: TAMPC: A Controller for Escaping Traps in Novel Environments
- arxiv url: http://arxiv.org/abs/2010.12516v3
- Date: Wed, 3 Feb 2021 18:22:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 00:02:15.455099
- Title: TAMPC: A Controller for Escaping Traps in Novel Environments
- Title(参考訳): TAMPC: 新たな環境におけるトラップの回避制御
- Authors: Sheng Zhong (1), Zhenyuan Zhang (1), Nima Fazeli (1), Dmitry Berenson
(1) ((1) Robotics Institute, University of Michigan)
- Abstract要約: ランダムに収集したトレーニングセットからトラップのないシステムのダイナミクスを学習する。
予期せぬトラップが実行中に発生すると、ダイナミックスとコントロール戦略に適応する方法を見つけなければなりません。
提案手法であるTap-Aware Model Predictive Control (TAMPC) は2段階階層制御アルゴリズムである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an approach to online model adaptation and control in the
challenging case of hybrid and discontinuous dynamics where actions may lead to
difficult-to-escape "trap" states, under a given controller. We first learn
dynamics for a system without traps from a randomly collected training set
(since we do not know what traps will be encountered online). These "nominal"
dynamics allow us to perform tasks in scenarios where the dynamics matches the
training data, but when unexpected traps arise in execution, we must find a way
to adapt our dynamics and control strategy and continue attempting the task.
Our approach, Trap-Aware Model Predictive Control (TAMPC), is a two-level
hierarchical control algorithm that reasons about traps and non-nominal
dynamics to decide between goal-seeking and recovery policies. An important
requirement of our method is the ability to recognize nominal dynamics even
when we encounter data that is out-of-distribution w.r.t the training data. We
achieve this by learning a representation for dynamics that exploits invariance
in the nominal environment, thus allowing better generalization. We evaluate
our method on simulated planar pushing and peg-in-hole as well as real robot
peg-in-hole problems against adaptive control, reinforcement learning,
trap-handling baselines, where traps arise due to unexpected obstacles that we
only observe through contact. Our results show that our method outperforms the
baselines on difficult tasks, and is comparable to prior trap-handling methods
on easier tasks.
- Abstract(参考訳): 本稿では, オンラインモデル適応と制御へのアプローチを提案し, 与えられた制御の下で, 動作が「トラップ」状態に陥る可能性のある, ハイブリッド・不連続力学の挑戦事例について述べる。
まず、ランダムに収集されたトレーニングセットからトラップを使わずにシステムのダイナミクスを学習します。
これらの"nominal"なダイナミクスは、ダイナミックがトレーニングデータにマッチするシナリオでタスクを実行することができますが、予期せぬトラップが実行時に発生すれば、ダイナミックスとコントロール戦略に適応し、タスクを継続する方法を見つけなければなりません。
提案手法であるTrap-Aware Model Predictive Control (TAMPC) は,トラップと非線形ダイナミクスを理由として,目標探索とリカバリポリシを決定する2段階階層制御アルゴリズムである。
本手法の重要な要件は,トレーニングデータに対して分布外であるデータに遭遇しても,名目力学を認識できることである。
我々は,公称環境における不変性を利用したダイナミクス表現を学習することで,より良い一般化を実現する。
適応制御, 強化学習, トラップ処理ベースラインに対する実際のロボットペグインホール問題に対して, 接触を通してのみ観測される予期せぬ障害物によりトラップが発生する場合のシミュレーション平面押出とペグインホールの手法を評価した。
その結果,本手法は難解なタスクのベースラインよりも優れており,より簡単なタスクのトラップ処理手法に匹敵することがわかった。
関連論文リスト
- Guided Reinforcement Learning for Robust Multi-Contact Loco-Manipulation [12.377289165111028]
強化学習(Reinforcement Learning, RL)は、各タスクに合わせた細かなマルコフ決定プロセス(MDP)設計を必要とすることが多い。
本研究は,マルチコンタクトロコ操作タスクの動作合成と制御に対する体系的アプローチを提案する。
モデルベース軌道から生成されたタスク毎の1つの実演のみを用いて,RLポリシーを訓練するためのタスク非依存のMDPを定義する。
論文 参考訳(メタデータ) (2024-10-17T17:46:27Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Chain-of-Thought Predictive Control [32.30974063877643]
複雑な低レベル制御のための実証から一般化可能な政策学習について研究する。
準最適デモを利用した新しい階層型模倣学習法を提案する。
論文 参考訳(メタデータ) (2023-04-03T07:59:13Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Let Offline RL Flow: Training Conservative Agents in the Latent Space of
Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。
我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。
提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文 参考訳(メタデータ) (2022-11-20T21:57:10Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z) - Multi-Task Reinforcement Learning based Mobile Manipulation Control for
Dynamic Object Tracking and Grasping [17.2022039806473]
汎用的な動的物体追跡と把握を実現するために,マルチタスク強化学習に基づく移動体操作制御フレームワークを提案する。
実験の結果、トレーニングされたポリシーは、約0.1mの追跡誤差と75%の達成率で、目に見えないランダムなダイナミックな軌道に適応できることがわかった。
論文 参考訳(メタデータ) (2020-06-07T21:18:36Z) - Online Constrained Model-based Reinforcement Learning [13.362455603441552]
主要な要件は、限られた時間とリソース予算内に留まりながら、継続的な状態とアクションスペースを扱う能力である。
本稿では,ガウス過程回帰と回帰水平制御を組み合わせたモデルに基づくアプローチを提案する。
本研究では,自動走行作業におけるオンライン学習のメリットを実証する。
論文 参考訳(メタデータ) (2020-04-07T15:51:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。