論文の概要: Reinforcement Learning from Demonstrations by Novel Interactive Expert
and Application to Automatic Berthing Control Systems for Unmanned Surface
Vessel
- arxiv url: http://arxiv.org/abs/2202.11325v1
- Date: Wed, 23 Feb 2022 06:45:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-25 00:40:00.877034
- Title: Reinforcement Learning from Demonstrations by Novel Interactive Expert
and Application to Automatic Berthing Control Systems for Unmanned Surface
Vessel
- Title(参考訳): 対話的エキスパートによる実証からの強化学習と無人表面容器の自動ベルト制御システムへの応用
- Authors: Haoran Zhang, Chenkun Yin, Yanxin Zhang, Shangtai Jin, Zhenxuan Li
- Abstract要約: RLfD(Reinforcement Learning from Demonstration)の2つの新しい実践的手法を開発し,無人表面容器の自動バーシング制御システムに適用した。
The new expert data generation method, called Model Predictive Based Expert (MPBE) was developed to provide high quality supervision data for RLfD algorithm。
また,MP-DDPGに基づく新たなRLfDアルゴリズムであるSelf-Guided Actor-Critic (SGAC)が存在する。
- 参考スコア(独自算出の注目度): 12.453219390225428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, two novel practical methods of Reinforcement Learning from
Demonstration (RLfD) are developed and applied to automatic berthing control
systems for Unmanned Surface Vessel. A new expert data generation method,
called Model Predictive Based Expert (MPBE) which combines Model Predictive
Control and Deep Deterministic Policy Gradient, is developed to provide high
quality supervision data for RLfD algorithms. A straightforward RLfD method,
model predictive Deep Deterministic Policy Gradient (MP-DDPG), is firstly
introduced by replacing the RL agent with MPBE to directly interact with the
environment. Then distribution mismatch problem is analyzed for MP-DDPG, and
two techniques that alleviate distribution mismatch are proposed. Furthermore,
another novel RLfD algorithm based on the MP-DDPG, called Self-Guided
Actor-Critic (SGAC) is present, which can effectively leverage MPBE by
continuously querying it to generate high quality expert data online. The
distribution mismatch problem leading to unstable learning process is addressed
by SGAC in a DAgger manner. In addition, theoretical analysis is given to prove
that SGAC algorithm can converge with guaranteed monotonic improvement.
Simulation results verify the effectiveness of MP-DDPG and SGAC to accomplish
the ship berthing control task, and show advantages of SGAC comparing with
other typical reinforcement learning algorithms and MP-DDPG.
- Abstract(参考訳): 本稿では,RLfD(Reinforcement Learning from Demonstration)の2つの新しい実践的手法を開発し,無人表面容器の自動曲げ制御システムに適用する。
モデル予測制御とDeep Deterministic Policy Gradientを組み合わせたモデル予測ベースエキスパート(MPBE)と呼ばれる新しい専門家データ生成手法を開発し,RLfDアルゴリズムの高品質な監視データを提供する。
まず、RLエージェントをMPBEに置き換え、環境と直接対話することで、簡単なRLfD法、モデル予測Deep Deterministic Policy Gradient(MP-DDPG)を導入する。
そして,MP-DDPGの分布ミスマッチ問題を解析し,分布ミスマッチを緩和する2つの手法を提案する。
さらに、mp-ddpgに基づく新たなrlfdアルゴリズムであるself-guided actor-critic (sgac)が存在し、mpbeを継続的にクエリして高品質な専門家データを生成することで効果的に活用することができる。
不安定な学習プロセスにつながる分布ミスマッチ問題は、DAgger方式でSGACによって解決される。
さらに、SGACアルゴリズムが保証された単調改善と収束できることを証明する理論的解析を行う。
シミュレーションの結果,MP-DDPGとSGACが船舶の係留制御に有効であることを検証し,他の一般的な強化学習アルゴリズムやMP-DDPGと比較してSGACの利点を示した。
関連論文リスト
- Augmented Lagrangian-Based Safe Reinforcement Learning Approach for Distribution System Volt/VAR Control [1.1059341532498634]
本稿では,Volt-VAR制御問題をマルコフ決定過程(CMDP)として定式化する。
本稿では, CMDP を解くために, 安全な非政治強化学習(RL)手法を提案する。
オフライントレーニングとオンライン実行には2段階の戦略が採用されているため、正確な分散システムモデルはもはや不要である。
論文 参考訳(メタデータ) (2024-10-19T19:45:09Z) - Real-Time Adaptive Safety-Critical Control with Gaussian Processes in
High-Order Uncertain Models [14.790031018404942]
本稿では,不確実なパラメータを持つシステムを対象とした適応型オンライン学習フレームワークを提案する。
まず,差分スパースGPアルゴリズムを改良するために,まず忘れ係数を積分する。
第2フェーズでは,高次制御バリア関数に基づく安全フィルタを提案する。
論文 参考訳(メタデータ) (2024-02-29T08:25:32Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - Dealing with Sparse Rewards in Continuous Control Robotics via
Heavy-Tailed Policies [64.2210390071609]
本稿では,連続制御問題におけるスパース報酬の課題に対処するため,HT-PSG(Heavy-Tailed Policy Gradient)アルゴリズムを提案する。
高平均累積報酬の観点から,全タスクに一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-06-12T04:09:39Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - PGTRNet: Two-phase Weakly Supervised Object Detection with Pseudo Ground
Truth Refining [10.262660606897974]
画像レベルのアノテーションだけで検知器を訓練することを目的とした弱い監視対象検出(WSOD)が注目されている。
現在の最先端のアプローチは、主に2段階のトレーニング戦略に従い、完全な教師付き検出器(FSD)と純粋なWSODモデルを統合する。
2相WSODアプローチの性能を阻害する主な問題は2つある。すなわち、不十分な学習問題と、WSODモデルによって生成されたFSDと擬似基底真理との厳密な依存である。
本稿では, 単純かつ効果的な手法である擬似基底真理改善ネットワーク(PGTRNet)を提案する。
論文 参考訳(メタデータ) (2021-08-25T19:20:49Z) - Reinforcement Learning for Robot Navigation with Adaptive Forward
Simulation Time (AFST) in a Semi-Markov Model [20.91419349793292]
本稿では,この問題を解決するために,半マルコフ決定プロセス (SMDP) と連続的な動作空間を持つDRLベースのナビゲーション手法であるAdaptive Forward Time Simulation (AFST) を提案する。
論文 参考訳(メタデータ) (2021-08-13T10:30:25Z) - Mixed Policy Gradient: off-policy reinforcement learning driven jointly
by data and model [32.61834127169759]
強化学習(RL)はシーケンシャルな意思決定において大きな可能性を秘めている。
メインストリームのRLアルゴリズムはデータ駆動であり、通常、モデル駆動の手法に比べて性能は向上するが、収束は遅くなる。
本稿では,政策勾配(PG)における経験的データと遷移モデルを融合したMPGアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-23T06:05:17Z) - Covert Model Poisoning Against Federated Learning: Algorithm Design and
Optimization [76.51980153902774]
フェデレーテッド・ラーニング(FL)はパラメータ伝達中にFLモデルに対する外部攻撃に対して脆弱である。
本稿では,最先端の防御アグリゲーション機構に対処する有効なMPアルゴリズムを提案する。
実験の結果,提案したCMPアルゴリズムは,既存の攻撃機構よりも効果的で,かなり優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T03:28:18Z) - Optimization-driven Deep Reinforcement Learning for Robust Beamforming
in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。
我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。
過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T01:42:55Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。