論文の概要: Modular Transfer Learning with Transition Mismatch Compensation for
Excessive Disturbance Rejection
- arxiv url: http://arxiv.org/abs/2007.14646v1
- Date: Wed, 29 Jul 2020 07:44:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-05 21:08:39.003739
- Title: Modular Transfer Learning with Transition Mismatch Compensation for
Excessive Disturbance Rejection
- Title(参考訳): 過度の外乱拒否に対する遷移ミスマッチ補償を用いたモジュラートランスファー学習
- Authors: Tianming Wang, Wenjie Lu, Huan Yu, Dikai Liu
- Abstract要約: 本研究では,水中ロボットの過剰な外乱拒絶に対する制御ポリシーに適応する移動学習フレームワークを提案する。
共通制御ポリシ(GCP)とオンライン外乱識別モデル(ODI)からなる学習ポリシーのモジュラーネットワークを適用した。
- 参考スコア(独自算出の注目度): 29.01654847752415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Underwater robots in shallow waters usually suffer from strong wave forces,
which may frequently exceed robot's control constraints. Learning-based
controllers are suitable for disturbance rejection control, but the excessive
disturbances heavily affect the state transition in Markov Decision Process
(MDP) or Partially Observable Markov Decision Process (POMDP). Also, pure
learning procedures on targeted system may encounter damaging exploratory
actions or unpredictable system variations, and training exclusively on a prior
model usually cannot address model mismatch from the targeted system. In this
paper, we propose a transfer learning framework that adapts a control policy
for excessive disturbance rejection of an underwater robot under dynamics model
mismatch. A modular network of learning policies is applied, composed of a
Generalized Control Policy (GCP) and an Online Disturbance Identification Model
(ODI). GCP is first trained over a wide array of disturbance waveforms. ODI
then learns to use past states and actions of the system to predict the
disturbance waveforms which are provided as input to GCP (along with the system
state). A transfer reinforcement learning algorithm using Transition Mismatch
Compensation (TMC) is developed based on the modular architecture, that learns
an additional compensatory policy through minimizing mismatch of transitions
predicted by the two dynamics models of the source and target tasks. We
demonstrated on a pose regulation task in simulation that TMC is able to
successfully reject the disturbances and stabilize the robot under an empirical
model of the robot system, meanwhile improve sample efficiency.
- Abstract(参考訳): 浅瀬の水中ロボットは通常強い波力に悩まされ、しばしばロボットの制御制約を超えることがある。
学習ベースコントローラは乱れ拒絶制御に適しているが、過度の乱れはマルコフ決定過程(MDP)や部分観測可能なマルコフ決定過程(PMMDP)の状態遷移に大きく影響を与える。
また,対象システムの純粋な学習手順は,探索行動や予測不可能なシステム変動に遭遇する可能性があり,事前モデルのトレーニングのみでは,対象システムからのモデルミスマッチに対処できないことが多い。
本稿では,動的モデルミスマッチ下での水中ロボットの過剰な外乱拒絶に対する制御ポリシーを適用可能な移動学習フレームワークを提案する。
一般制御ポリシ(GCP)とオンライン外乱識別モデル(ODI)で構成される学習ポリシーのモジュールネットワークが適用される。
gcpはまず、さまざまな外乱波形でトレーニングされる。
その後、ODIはシステムの過去の状態とアクションを使用してGCPへの入力として提供される障害波形を(システム状態とともに)予測する。
トランスフォーメーション・ミスマッチ補償(TMC)を用いたトランスフォーメーション強化学習アルゴリズムを開発し、ソースとターゲットタスクの2つの動的モデルによって予測されるトランジションのミスマッチを最小化することにより、追加の補償ポリシーを学習する。
本研究では, ロボットシステムの実験モデルを用いて, TMCが障害を回避し, ロボットの安定化を図り, サンプル効率を向上できることをシミュレーションで実証した。
関連論文リスト
- Self-Healing Machine Learning: A Framework for Autonomous Adaptation in Real-World Environments [50.310636905746975]
実世界の機械学習システムは、基礎となるデータ生成プロセスの分散シフトによって、モデルの性能劣化に遭遇することが多い。
概念のドリフト適応のような既存のシフトへのアプローチは、その理性に依存しない性質によって制限される。
我々はこれらの制限を克服するために自己修復機械学習(SHML)を提案する。
論文 参考訳(メタデータ) (2024-10-31T20:05:51Z) - Dropout MPC: An Ensemble Neural MPC Approach for Systems with Learned Dynamics [0.0]
そこで本研究では,モンテカルロのドロップアウト手法を学習システムモデルに応用した,サンプリングベースアンサンブルニューラルMPCアルゴリズムを提案する。
この手法は一般に複雑な力学を持つ不確実なシステムを対象としており、第一原理から派生したモデルは推論が難しい。
論文 参考訳(メタデータ) (2024-06-04T17:15:25Z) - Dynamic Online Modulation Recognition using Incremental Learning [6.6953472972255]
従来のディープラーニング(DL)モデルは、オンラインの動的コンテキストでは不足することが多い。
インクリメンタルラーニング(IL)に基づく変調認識フレームワークは,破滅的な忘れ込みを効果的に防止できることを示す。
その結果、ILに基づく変調認識フレームワークは破滅的な忘れ込みを効果的に防ぎ、モデルが動的シナリオで堅牢に動作できることが示唆された。
論文 参考訳(メタデータ) (2023-12-07T21:56:26Z) - DiAReL: Reinforcement Learning with Disturbance Awareness for Robust
Sim2Real Policy Transfer in Robot Control [0.0]
遅延マルコフ決定プロセスは、最近コミットされたアクションの有限時間ウィンドウでエージェントの状態空間を拡大することでマルコフ特性を満たす。
本稿では,遅延した環境下での乱れ増進型マルコフ決定プロセスを導入し,政治強化学習アルゴリズムのトレーニングにおける乱れ推定を取り入れた新しい表現法を提案する。
論文 参考訳(メタデータ) (2023-06-15T10:11:38Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - DySMHO: Data-Driven Discovery of Governing Equations for Dynamical
Systems via Moving Horizon Optimization [77.34726150561087]
本稿では,スケーラブルな機械学習フレームワークである移動水平最適化(DySMHO)による動的システムの発見について紹介する。
DySMHOは、基底関数の大きな辞書から基礎となる支配方程式を逐次学習する。
標準非線形力学系の例は、DySMHOが規則を正確に回復できることを示すために用いられる。
論文 参考訳(メタデータ) (2021-07-30T20:35:03Z) - Collision-Free Flocking with a Dynamic Squad of Fixed-Wing UAVs Using
Deep Reinforcement Learning [2.555094847583209]
深層強化学習(DRL)による分散型リーダ・フォロワリング制御問題に対処する。
我々は,すべてのフォロワーに対して共有制御ポリシーを学習するための新しい強化学習アルゴリズムCACER-IIを提案する。
その結果、可変長系状態を固定長埋め込みベクトルに符号化することができ、学習されたDRLポリシーをフォロワーの数や順序と独立にすることができる。
論文 参考訳(メタデータ) (2021-01-20T11:23:35Z) - Enhanced Adversarial Strategically-Timed Attacks against Deep
Reinforcement Learning [91.13113161754022]
本稿では,DRLに基づくナビゲーションシステムに対して,選択した時間フレーム上の物理ノイズパターンを妨害することにより,タイミングに基づく逆方向戦略を導入する。
実験結果から, 対向タイミング攻撃は性能低下を引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2020-02-20T21:39:25Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。