論文の概要: Reinforcement Learning-Based Automatic Berthing System
- arxiv url: http://arxiv.org/abs/2112.01879v1
- Date: Fri, 3 Dec 2021 12:34:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-06 17:14:29.255293
- Title: Reinforcement Learning-Based Automatic Berthing System
- Title(参考訳): 強化学習に基づく自動ベスティングシステム
- Authors: Daesoo Lee
- Abstract要約: 提案するPPOベースの自動バーチングシステムは,実際のバーチングアプリケーションに大きな可能性を示す。
提案したPPOベースの自動バーシングシステムでは,トレーニングデータセットを取得する必要がなくなる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous studies on automatic berthing systems based on artificial neural
network (ANN) showed great berthing performance by training the ANN with ship
berthing data as training data. However, because the ANN requires a large
amount of training data to yield robust performance, the ANN-based automatic
berthing system is somewhat limited due to the difficulty in obtaining the
berthing data. In this study, to overcome this difficulty, the automatic
berthing system based on one of the reinforcement learning (RL) algorithms,
proximal policy optimization (PPO), is proposed because the RL algorithms can
learn an optimal control policy through trial-and-error by interacting with a
given environment and does not require any pre-obtained training data, where
the control policy in the proposed PPO-based automatic berthing system controls
revolutions per second (RPS) and rudder angle of a ship. Finally, it is shown
that the proposed PPO-based automatic berthing system eliminates the need for
obtaining the training dataset and shows great potential for the actual
berthing application.
- Abstract(参考訳): 人工ニューラルネットワーク(ANN)を用いた自動バーチングシステムの研究は,船体バーチングデータをトレーニングデータとしてトレーニングすることにより,優れたバーチング性能を示した。
しかし、ANNは、堅牢な性能を得るために大量のトレーニングデータを必要とするため、このバーシングデータを取得するのが困難であるため、ANNベースの自動バーシングシステムは多少制限されている。
In this study, to overcome this difficulty, the automatic berthing system based on one of the reinforcement learning (RL) algorithms, proximal policy optimization (PPO), is proposed because the RL algorithms can learn an optimal control policy through trial-and-error by interacting with a given environment and does not require any pre-obtained training data, where the control policy in the proposed PPO-based automatic berthing system controls revolutions per second (RPS) and rudder angle of a ship.
最後に,提案システムではトレーニングデータセットの取得の必要性を排除し,実際のバーシングアプリケーションに大きな可能性を示す。
関連論文リスト
- Data-efficient Deep Reinforcement Learning for Vehicle Trajectory
Control [6.144517901919656]
強化学習(RL)は、古典的なアプローチよりも優れた制御性能を達成することを約束する。
SAC(Soft-actor critic)のような標準RLアプローチでは、大量のトレーニングデータを収集する必要がある。
近年開発されたディープRL法を車両軌道制御に適用した。
論文 参考訳(メタデータ) (2023-11-30T09:38:59Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [65.57123249246358]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - Online Self-Supervised Deep Learning for Intrusion Detection Systems [1.2952596966415793]
本稿では, 完全オンライン深層学習(DL)に基づく侵入検知システム(IDS)を実現する, SSID(Self-Supervised Intrusion Detection)フレームワークを提案する。
提案フレームワークは,IDS自体の判断に基づいて,受信するトラフィックパケットを分析し,ラベル付けする。
このアプローチは、データラベリングにおけるヒューマンエラーや、モデルトレーニングとデータ収集の人的労力と計算コストを回避する。
論文 参考訳(メタデータ) (2023-06-22T16:46:35Z) - FastRLAP: A System for Learning High-Speed Driving via Deep RL and
Autonomous Practicing [71.76084256567599]
本稿では、自律型小型RCカーを強化学習(RL)を用いた視覚的観察から積極的に駆動するシステムを提案する。
我々のシステムであるFastRLAP (faster lap)は、人間の介入なしに、シミュレーションや専門家によるデモンストレーションを必要とせず、現実世界で自律的に訓練する。
結果として得られたポリシーは、タイミングブレーキや回転の加速度などの突発的な運転スキルを示し、ロボットの動きを妨げる領域を避け、トレーニングの途中で同様の1対1のインタフェースを使用して人間のドライバーのパフォーマンスにアプローチする。
論文 参考訳(メタデータ) (2023-04-19T17:33:47Z) - Don't Start From Scratch: Leveraging Prior Data to Automate Robotic
Reinforcement Learning [70.70104870417784]
強化学習(RL)アルゴリズムは、ロボットシステムの自律的なスキル獲得を可能にするという約束を持っている。
現実のロボットRLは、通常、環境をリセットするためにデータ収集と頻繁な人間の介入を必要とする。
本研究では,従来のタスクから収集した多様なオフラインデータセットを効果的に活用することで,これらの課題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2022-07-11T08:31:22Z) - AI-as-a-Service Toolkit for Human-Centered Intelligence in Autonomous
Driving [13.575818872875637]
本稿では,H2020 TEACHINGプロジェクトで開発されたAI-as-a-serviceツールキットの概念実証実装を提案する。
自動運転者のストレス認識アルゴリズムの出力に応じて自律運転パーソナライズシステムを実装する。
論文 参考訳(メタデータ) (2022-02-03T15:41:43Z) - Boosting the Convergence of Reinforcement Learning-based Auto-pruning
Using Historical Data [35.36703623383735]
強化学習(Reinforcement Learning, RL)に基づくオートプルーニング(auto-pruning, 自動プルーニング)は, 手作りの高価な作業を避けるために, プルーニングプロセスを自動化するために提案されている。
しかし、RLをベースとしたプルーナーでは、時間を要するトレーニングプロセスが伴い、各サンプルの高コストがこの問題をさらに悪化させる。
本稿では,従来のオートプルーニングプロセスの履歴データを活用することで,この問題を解消する効率的なオートプルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-16T07:17:26Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z) - Reinforcement Learning Control of Robotic Knee with Human in the Loop by
Flexible Policy Iteration [17.365135977882215]
本研究は,ポリシーアルゴリズムに革新的な特徴を導入することで,重要な空白を埋める。
本稿では,近似値関数の収束,解の最適性,システムの安定性などのシステムレベルの性能を示す。
論文 参考訳(メタデータ) (2020-06-16T09:09:48Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。