論文の概要: Transferring Multiple Policies to Hotstart Reinforcement Learning in an
Air Compressor Management Problem
- arxiv url: http://arxiv.org/abs/2301.12820v1
- Date: Mon, 30 Jan 2023 12:18:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 14:59:33.530869
- Title: Transferring Multiple Policies to Hotstart Reinforcement Learning in an
Air Compressor Management Problem
- Title(参考訳): エアコンプレッサー管理問題におけるホットスタート強化学習への複数のポリシーの伝達
- Authors: H\'el\`ene Plisnier, Denis Steckelmacher, Jeroen Willems, Bruno
Depraetere, Ann Now\'e
- Abstract要約: ポリシ・インターセクション(Policy Intersection)は、強化学習エージェントが圧縮機制御問題の新たな変種を高速に解くのを助けるためのポリシ・シェーピング手法である。
提案手法は,古いコントローラをロードすることで性能が向上し,長期的には性能が大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 0.9449650062296823
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Many instances of similar or almost-identical industrial machines or tools
are often deployed at once, or in quick succession. For instance, a particular
model of air compressor may be installed at hundreds of customers. Because
these tools perform distinct but highly similar tasks, it is interesting to be
able to quickly produce a high-quality controller for machine $N+1$ given the
controllers already produced for machines $1..N$. This is even more important
when the controllers are learned through Reinforcement Learning, as training
takes time, energy and other resources. In this paper, we apply Policy
Intersection, a Policy Shaping method, to help a Reinforcement Learning agent
learn to solve a new variant of a compressors control problem faster, by
transferring knowledge from several previously learned controllers. We show
that our approach outperforms loading an old controller, and significantly
improves performance in the long run.
- Abstract(参考訳): 同様の、あるいはほぼ同一の産業機械やツールの例の多くは、一度に、あるいは短時間にデプロイされることが多い。
例えば、特定の空気圧縮機を数百の顧客に設置することができる。
これらのツールは、異なるが非常によく似たタスクを実行するので、すでに1.99ドルで製造されているコントローラーを考えると、マシン用の高品質なコントローラを迅速に作成できることは興味深い。
N$。
トレーニングには時間やエネルギー、その他のリソースを要するため、強化学習を通じてコントローラが学習される場合、これはさらに重要です。
本稿では, 政策形成手法であるポリシ・インターセクションを適用し, 強化学習エージェントが, 以前に学習した複数のコントローラから知識を伝達することで, 圧縮機制御問題の新たな変種を迅速に解くのを支援する。
我々のアプローチは古いコントローラのロードよりも優れており、長期的にはパフォーマンスが大幅に向上している。
関連論文リスト
- Stepping Out of the Shadows: Reinforcement Learning in Shadow Mode [8.017543518311196]
強化学習は、多くのサイバー物理システムにとってまだ競争力がない。
我々は、従来の制御器の補助により、いわゆるシャドウモードで補強剤を訓練する。
シャドーモードでは、エージェントは、タスクを学ぶためのアクションサンプルと好ましい状態へのガイダンスを提供するために、コントローラに依存する。
論文 参考訳(メタデータ) (2024-10-30T19:52:52Z) - ControlNeXt: Powerful and Efficient Control for Image and Video Generation [59.62289489036722]
制御可能画像と映像生成のための強力かつ効率的な制御NeXtを提案する。
まず、より単純で効率的なアーキテクチャを設計し、より重いブランチを最小限のコストで置き換えます。
トレーニングでは,学習可能なパラメータの最大90%を,代替案と比較して削減する。
論文 参考訳(メタデータ) (2024-08-12T11:41:18Z) - Reinforcement Learning for UAV control with Policy and Reward Shaping [0.7127008801193563]
本研究では,RLエージェントが報酬形成と政策形成を同時に行うことで,ドローンを制御できるように指導する。
その結果,両手法を同時に訓練したエージェントは,政策ベースアプローチのみを用いて訓練したエージェントよりも報酬が低いことがわかった。
論文 参考訳(メタデータ) (2022-12-06T14:46:13Z) - Skip Training for Multi-Agent Reinforcement Learning Controller for
Industrial Wave Energy Converters [94.84709449845352]
近年のウェーブ・エナジー・コンバータ(WEC)は、発電を最大化するために複数の脚と発電機を備えている。
従来のコントローラは複雑な波のパターンを捕捉する制限を示しており、コントローラはエネルギー捕獲を効率的に最大化する必要がある。
本稿では,従来のスプリングダンパよりも優れたマルチエージェント強化学習コントローラ(MARL)を提案する。
論文 参考訳(メタデータ) (2022-09-13T00:20:31Z) - Coach-assisted Multi-Agent Reinforcement Learning Framework for
Unexpected Crashed Agents [120.91291581594773]
本稿では,予期せぬクラッシュを伴う協調型マルチエージェント強化学習システムの公式な定式化について述べる。
本稿では,教師支援型多エージェント強化学習フレームワークを提案する。
私たちの知る限りでは、この研究はマルチエージェントシステムにおける予期せぬクラッシュを初めて研究したものです。
論文 参考訳(メタデータ) (2022-03-16T08:22:45Z) - A Meta-Reinforcement Learning Approach to Process Control [3.9146761527401424]
メタラーニングは、ニューラルネットワークなどのモデルを迅速に適応させ、新しいタスクを実行することを目的としています。
制御器を構築し,別の埋め込みニューラルネットワークを用いて潜在コンテキスト変数を用いて制御器をメタトレーニングする。
どちらの場合も、メタラーニングアルゴリズムは新しいタスクに非常に迅速に適応し、ゼロから訓練された通常のDRLコントローラよりも優れています。
論文 参考訳(メタデータ) (2021-03-25T18:20:56Z) - Machine Learning for Mechanical Ventilation Control [52.65490904484772]
圧制御換気における侵襲的機械式換気装置の制御の問題点を考察する。
PIDコントローラは、臨床医が指定する気道圧の軌跡に従って、鎮静患者の肺の空気を入出させる必要があります。
制御器は、PID制御器よりも目標圧力波形をかなりよく追跡できることを示す。
論文 参考訳(メタデータ) (2021-02-12T21:23:33Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z) - Learning a Contact-Adaptive Controller for Robust, Efficient Legged
Locomotion [95.1825179206694]
四足歩行ロボットのためのロバストコントローラを合成するフレームワークを提案する。
高レベルコントローラは、環境の変化に応じてプリミティブのセットを選択することを学習する。
確立された制御方法を使用してプリミティブを堅牢に実行する低レベルコントローラ。
論文 参考訳(メタデータ) (2020-09-21T16:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。