論文の概要: DiAReL: Reinforcement Learning with Disturbance Awareness for Robust
Sim2Real Policy Transfer in Robot Control
- arxiv url: http://arxiv.org/abs/2306.09010v1
- Date: Thu, 15 Jun 2023 10:11:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 15:27:26.176585
- Title: DiAReL: Reinforcement Learning with Disturbance Awareness for Robust
Sim2Real Policy Transfer in Robot Control
- Title(参考訳): DiAReL:ロボット制御におけるロバストシム2リアルポリシー伝達のための外乱認識型強化学習
- Authors: Mohammadhossein Malmir (1), Josip Josifovski (1), Noah Klarmann (2),
Alois Knoll (1) ((1) Department of Computer Engineering, School of
Computation, Information and Technology, Technical University of Munich, (2)
Rosenheim University of Applied Sciences)
- Abstract要約: 遅延マルコフ決定プロセスは、最近コミットされたアクションの有限時間ウィンドウでエージェントの状態空間を拡大することでマルコフ特性を満たす。
本稿では,遅延した環境下での乱れ増進型マルコフ決定プロセスを導入し,政治強化学習アルゴリズムのトレーニングにおける乱れ推定を取り入れた新しい表現法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Delayed Markov decision processes fulfill the Markov property by augmenting
the state space of agents with a finite time window of recently committed
actions. In reliance with these state augmentations, delay-resolved
reinforcement learning algorithms train policies to learn optimal interactions
with environments featured with observation or action delays. Although such
methods can directly be trained on the real robots, due to sample inefficiency,
limited resources or safety constraints, a common approach is to transfer
models trained in simulation to the physical robot. However, robotic
simulations rely on approximated models of the physical systems, which hinders
the sim2real transfer. In this work, we consider various uncertainties in the
modelling of the robot's dynamics as unknown intrinsic disturbances applied on
the system input. We introduce a disturbance-augmented Markov decision process
in delayed settings as a novel representation to incorporate disturbance
estimation in training on-policy reinforcement learning algorithms. The
proposed method is validated across several metrics on learning a robotic
reaching task and compared with disturbance-unaware baselines. The results show
that the disturbance-augmented models can achieve higher stabilization and
robustness in the control response, which in turn improves the prospects of
successful sim2real transfer.
- Abstract(参考訳): 遅延マルコフ決定プロセスは、最近実行されたアクションの有限時間ウィンドウでエージェントの状態空間を増強することでマルコフ特性を満たす。
これらの状態強化に頼って、遅延解決型強化学習アルゴリズムは、観察や行動遅延を特徴とする環境との最適な相互作用を学ぶためのポリシーを訓練する。
このような方法は実際のロボットで直接訓練できるが、サンプルの非効率性、限られた資源や安全性の制約により、シミュレーションで訓練されたモデルを物理ロボットに転送するのが一般的である。
しかし、ロボットシミュレーションは、シム2リアル移動を妨げる物理系の近似モデルに依存している。
本研究では,ロボットの力学のモデル化における様々な不確実性を,システム入力に適用される未知の内在的障害として考察する。
そこで本研究では,遅延設定における外乱誘導マルコフ決定過程を新しい表現法として導入し,オン・ポリティカル強化学習アルゴリズムの学習に外乱推定を組み込む。
提案手法は,ロボット到達タスクの学習と,外乱を意識しないベースラインとの比較において,いくつかの指標にまたがって検証される。
その結果、外乱応答モデルでは制御応答の安定化とロバスト性が向上し、sim2実数転送が成功する可能性が向上した。
関連論文リスト
- Distributed Robust Learning based Formation Control of Mobile Robots based on Bioinspired Neural Dynamics [14.149584412213269]
まず,変数構造とカスケード設計手法を用いた分散推定器を導入し,実時間性能向上のための微分情報の必要性を排除した。
そして、スムーズな制御入力を提供し、スピードジャンプ問題を効果的に解決することを目的とした、バイオインスパイアされたニューラルダイナミックベースのアプローチを用いて、キネマティックトラッキング制御法を開発した。
完全に未知の力学と乱れを持つロボットの課題に対処するために,学習に基づく頑健な動的コントローラを開発した。
論文 参考訳(メタデータ) (2024-03-23T04:36:12Z) - A Q-learning approach to the continuous control problem of robot
inverted pendulum balancing [0.29008108937701327]
本研究では,ロボット逆振り子バランスの連続制御問題に対する離散的行動空間強化学習法(Q-learning)の適用性を評価する。
システム力学の数学的モデルが実装され、実システムから取得したデータに対する曲線フィッティングによって導出される。
論文 参考訳(メタデータ) (2023-12-05T10:40:48Z) - Model-Based Runtime Monitoring with Interactive Imitation Learning [30.70994322652745]
本研究は,タスク実行中のエラーを監視し,検出する能力を備えたロボットの実現を目的とする。
本稿では,デプロイメントデータからシステム異常を検出し,障害を予測するためのモデルベースランタイム監視アルゴリズムを提案する。
本手法は, シミュレーションおよび物理ハードウェアにおいて, 23%, 40%高い成功率で, システムレベルおよび単体テストの基準線を上回り, 性能を向上する。
論文 参考訳(メタデータ) (2023-10-26T16:45:44Z) - Bridging Active Exploration and Uncertainty-Aware Deployment Using
Probabilistic Ensemble Neural Network Dynamics [11.946807588018595]
本稿では,活発な探索と不確実性を考慮した展開を橋渡しするモデルベース強化学習フレームワークを提案する。
探索と展開の対立する2つのタスクは、最先端のサンプリングベースのMPCによって最適化されている。
自動運転車と車輪付きロボットの両方で実験を行い、探索と展開の両方に有望な結果を示します。
論文 参考訳(メタデータ) (2023-05-20T17:20:12Z) - Domain Randomization for Robust, Affordable and Effective Closed-loop
Control of Soft Robots [10.977130974626668]
ソフトロボットは、コンタクトや適応性に対する本質的な安全性によって人気を集めている。
本稿では、ソフトロボットのRLポリシーを強化することにより、ドメインランダム化(DR)がこの問題を解決する方法を示す。
本稿では,変形可能なオブジェクトに対する動的パラメータの自動推論のための,従来の適応的領域ランダム化手法に対する新しいアルゴリズム拡張を提案する。
論文 参考訳(メタデータ) (2023-03-07T18:50:00Z) - Real-to-Sim: Predicting Residual Errors of Robotic Systems with Sparse
Data using a Learning-based Unscented Kalman Filter [65.93205328894608]
我々は,動的・シミュレータモデルと実ロボット間の残差を学習する。
学習した残差誤差により、動的モデル、シミュレーション、および実際のハードウェア間の現実的ギャップをさらに埋めることができることを示す。
論文 参考訳(メタデータ) (2022-09-07T15:15:12Z) - Revisiting the Adversarial Robustness-Accuracy Tradeoff in Robot
Learning [121.9708998627352]
近年の研究では、現実的なロボット学習の応用において、対人訓練の効果が公平なトレードオフを起こさないことが示されている。
本研究は,ロボット学習におけるロバストネスと精度のトレードオフを再考し,最近のロバストトレーニング手法と理論の進歩により,現実のロボット応用に適した対人トレーニングが可能かどうかを解析する。
論文 参考訳(メタデータ) (2022-04-15T08:12:15Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z) - Point Cloud Based Reinforcement Learning for Sim-to-Real and Partial
Observability in Visual Navigation [62.22058066456076]
強化学習(Reinforcement Learning, RL)は、複雑なロボットタスクを解決する強力なツールである。
RL は sim-to-real transfer problem として知られる現実世界では直接作用しない。
本稿では,点雲と環境ランダム化によって構築された観測空間を学習する手法を提案する。
論文 参考訳(メタデータ) (2020-07-27T17:46:59Z) - Thinking While Moving: Deep Reinforcement Learning with Concurrent
Control [122.49572467292293]
本研究では,制御システムの時間的進化とともに,ポリシーからのアクションのサンプリングを同時に行わなければならないような環境下での強化学習について検討する。
人や動物のように、ロボットは思考と移動を同時に行わなければならず、前の動作が完了する前に次の動作を決定する。
論文 参考訳(メタデータ) (2020-04-13T17:49:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。