論文の概要: Skip Training for Multi-Agent Reinforcement Learning Controller for
Industrial Wave Energy Converters
- arxiv url: http://arxiv.org/abs/2209.05656v1
- Date: Tue, 13 Sep 2022 00:20:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-14 12:35:10.223570
- Title: Skip Training for Multi-Agent Reinforcement Learning Controller for
Industrial Wave Energy Converters
- Title(参考訳): 産業用ウェーブエネルギー変換器用マルチエージェント強化学習コントローラのスキップトレーニング
- Authors: Soumyendu Sarkar, Vineet Gundecha, Sahand Ghorbanpour, Alexander
Shmakov, Ashwin Ramesh Babu, Alexandre Pichard, and Mathieu Cocho
- Abstract要約: 近年のウェーブ・エナジー・コンバータ(WEC)は、発電を最大化するために複数の脚と発電機を備えている。
従来のコントローラは複雑な波のパターンを捕捉する制限を示しており、コントローラはエネルギー捕獲を効率的に最大化する必要がある。
本稿では,従来のスプリングダンパよりも優れたマルチエージェント強化学習コントローラ(MARL)を提案する。
- 参考スコア(独自算出の注目度): 94.84709449845352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent Wave Energy Converters (WEC) are equipped with multiple legs and
generators to maximize energy generation. Traditional controllers have shown
limitations to capture complex wave patterns and the controllers must
efficiently maximize the energy capture. This paper introduces a Multi-Agent
Reinforcement Learning controller (MARL), which outperforms the traditionally
used spring damper controller. Our initial studies show that the complex nature
of problems makes it hard for training to converge. Hence, we propose a novel
skip training approach which enables the MARL training to overcome performance
saturation and converge to more optimum controllers compared to default MARL
training, boosting power generation. We also present another novel hybrid
training initialization (STHTI) approach, where the individual agents of the
MARL controllers can be initially trained against the baseline Spring Damper
(SD) controller individually and then be trained one agent at a time or all
together in future iterations to accelerate convergence. We achieved
double-digit gains in energy efficiency over the baseline Spring Damper
controller with the proposed MARL controllers using the Asynchronous Advantage
Actor-Critic (A3C) algorithm.
- Abstract(参考訳): 最近のウェーブ・エナジー・コンバータ(wec)は、エネルギー発生を最大化するために複数の脚と発電機を備えている。
従来のコントローラは複雑な波のパターンを捕捉する制限を示しており、コントローラはエネルギー捕獲を効率的に最大化する必要がある。
本稿では,従来のspring damperコントローラに匹敵するマルチエージェント強化学習コントローラ(marl)を提案する。
最初の研究は、問題の複雑な性質が、トレーニングの収束を難しくしていることを示している。
そこで本研究では,MARLトレーニングが性能飽和を克服し,デフォルトのMARLトレーニングよりも最適なコントローラに収束し,発電を向上する,新しいスキップトレーニング手法を提案する。
また,marlコントローラの個々のエージェントをベースラインのspring damper (sd)コントローラに対して個別にトレーニングし,その後,コンバージェンスを加速するために,複数のエージェントを一度にあるいはすべて同時に訓練する,新たなハイブリッドトレーニング初期化 (sthti) アプローチを提案する。
Asynchronous Advantage Actor-Critic (A3C)アルゴリズムを用いたMARLコントローラにより,ベースラインのSpring Damperコントローラよりも2桁のエネルギー効率向上を実現した。
関連論文リスト
- Function Approximation for Reinforcement Learning Controller for Energy from Spread Waves [69.9104427437916]
マルチジェネレータ・ウェーブ・エナジー・コンバータ(WEC)は、スプレッド・ウェーブと呼ばれる異なる方向から来る複数の同時波を処理しなければならない。
これらの複雑な装置は、エネルギー捕獲効率、維持を制限する構造的ストレスの低減、高波に対する積極的な保護という複数の目的を持つコントローラを必要とする。
本稿では,システム力学のシーケンシャルな性質をモデル化する上で,ポリシーと批判ネットワークの異なる機能近似について検討する。
論文 参考訳(メタデータ) (2024-04-17T02:04:10Z) - A comparison of RL-based and PID controllers for 6-DOF swimming robots:
hybrid underwater object tracking [8.362739554991073]
本稿では,PIDコントローラの代替として,集中型深層Q-network(DQN)コントローラを用いた調査と評価を行う。
我々の主な焦点は、この遷移を水中物体追跡の特定のケースで説明することに集中している。
本実験は,Unityをベースとしたシミュレータで実施し,分離したPIDコントローラ上での集中型RLエージェントの有効性を検証した。
論文 参考訳(メタデータ) (2024-01-29T23:14:15Z) - Learning to Fly in Seconds [7.259696592534715]
カリキュラム学習と高度に最適化されたシミュレータが,サンプルの複雑さを増し,学習時間の短縮につながることを示す。
我々のフレームワークは、コンシューマ級ラップトップで18秒のトレーニングをした後、直接制御するためのSimulation-to-Real(Sim2Real)転送を可能にする。
論文 参考訳(メタデータ) (2023-11-22T01:06:45Z) - End-to-End Reinforcement Learning for Torque Based Variable Height
Hopping [5.34772724436823]
足の移動は自然または非構造地形を扱うのに最も適しており、多用途であることは間違いない。
本稿では,ジャンプ位相を暗黙的に検出するエンド・ツー・エンドのRL型トルクコントローラを提案する。
また、学習した制御器がリッチな動的タスクに接触できるように、シミュレーション手法を拡張し、ロボットへの展開を成功させる。
論文 参考訳(メタデータ) (2023-07-31T13:51:29Z) - Stabilizing Voltage in Power Distribution Networks via Multi-Agent
Reinforcement Learning with Transformer [128.19212716007794]
本稿では,変圧器を用いたマルチエージェント・アクタ・クリティカル・フレームワーク(T-MAAC)を提案する。
さらに、電圧制御タスクに適した新しい補助タスクトレーニングプロセスを採用し、サンプル効率を向上する。
論文 参考訳(メタデータ) (2022-06-08T07:48:42Z) - Machine Learning for Mechanical Ventilation Control [52.65490904484772]
圧制御換気における侵襲的機械式換気装置の制御の問題点を考察する。
PIDコントローラは、臨床医が指定する気道圧の軌跡に従って、鎮静患者の肺の空気を入出させる必要があります。
制御器は、PID制御器よりも目標圧力波形をかなりよく追跡できることを示す。
論文 参考訳(メタデータ) (2021-02-12T21:23:33Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z) - Learning a Contact-Adaptive Controller for Robust, Efficient Legged
Locomotion [95.1825179206694]
四足歩行ロボットのためのロバストコントローラを合成するフレームワークを提案する。
高レベルコントローラは、環境の変化に応じてプリミティブのセットを選択することを学習する。
確立された制御方法を使用してプリミティブを堅牢に実行する低レベルコントローラ。
論文 参考訳(メタデータ) (2020-09-21T16:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。