論文の概要: Learning to Do or Learning While Doing: Reinforcement Learning and
Bayesian Optimisation for Online Continuous Tuning
- arxiv url: http://arxiv.org/abs/2306.03739v1
- Date: Tue, 6 Jun 2023 14:56:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 14:56:13.195201
- Title: Learning to Do or Learning While Doing: Reinforcement Learning and
Bayesian Optimisation for Online Continuous Tuning
- Title(参考訳): 実行中の学習と学習--オンライン連続チューニングのための強化学習とベイズ最適化
- Authors: Jan Kaiser, Chenran Xu, Annika Eichler, Andrea Santamaria Garcia,
Oliver Stein, Erik Br\"undermann, Willi Kuropka, Hannes Dinter, Frank Mayet,
Thomas Vinatier, Florian Burkart, Holger Schlarb
- Abstract要約: 本稿では,実粒子加速器におけるルーチンタスクを用いた比較研究を例に挙げる。
本研究の結果から,与えられたチューニングタスクに対するアルゴリズムの選択を導くための明確な基準セットを提供する。
これにより、複雑な現実世界のプラントの運用において、学習ベースの自律的チューニングソリューションの採用が容易になる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online tuning of real-world plants is a complex optimisation problem that
continues to require manual intervention by experienced human operators.
Autonomous tuning is a rapidly expanding field of research, where
learning-based methods, such as Reinforcement Learning-trained Optimisation
(RLO) and Bayesian optimisation (BO), hold great promise for achieving
outstanding plant performance and reducing tuning times. Which algorithm to
choose in different scenarios, however, remains an open question. Here we
present a comparative study using a routine task in a real particle accelerator
as an example, showing that RLO generally outperforms BO, but is not always the
best choice. Based on the study's results, we provide a clear set of criteria
to guide the choice of algorithm for a given tuning task. These can ease the
adoption of learning-based autonomous tuning solutions to the operation of
complex real-world plants, ultimately improving the availability and pushing
the limits of operability of these facilities, thereby enabling scientific and
engineering advancements.
- Abstract(参考訳): 実世界の植物のオンラインチューニングは複雑な最適化問題であり、経験豊富な人間の操作者が手動で介入する必要がある。
自律的チューニングは、強化学習訓練最適化(RLO)やベイズ最適化(BO)のような学習に基づく手法が、優れた植物性能とチューニング時間の短縮を約束する、急速に普及する研究分野である。
しかし、どのアルゴリズムを異なるシナリオで選ぶかは未解決のままだ。
ここでは、実粒子加速器におけるルーチンタスクを用いた比較研究を行い、RLOがBOより一般的に優れているが、必ずしも最良の選択ではないことを示す。
本研究の結果に基づき,与えられたチューニングタスクに対するアルゴリズムの選択を導くための明確な基準セットを提案する。
これにより、複雑な現実世界のプラントの運用に対する学習に基づく自律的なチューニングソリューションの導入が容易になり、最終的にはこれらの施設の可用性を改善し、運用の限界を押し上げ、科学と工学の進歩を可能にする。
関連論文リスト
- Sample Efficient Reinforcement Learning by Automatically Learning to
Compose Subtasks [3.1594865504808944]
サブタスクを表すラベルのセットを与えられた場合、サンプル効率のために報酬関数を自動的に構成するRLアルゴリズムを提案する。
我々は,様々なスパース・リワード環境におけるアルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2024-01-25T15:06:40Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Mechanic: A Learning Rate Tuner [52.4242550204696]
我々は,任意の基本最適化アルゴリズムの学習率尺度係数を調整し,自動的にスケジュールする手法を導入し,それをテクスチャメカニックと呼ぶ。
各種バッチサイズ,スケジュール,基本最適化アルゴリズムを用いて,大規模深層学習タスクにおけるテクスチャメカニックを厳格に評価する。
論文 参考訳(メタデータ) (2023-05-31T19:32:43Z) - Learning to Optimize for Reinforcement Learning [79.03249959636776]
ゼロから強化学習を行うエージェントを学習することは可能であることを示す。
おもちゃのタスクでしか訓練されないが、我々の学習はブラックスの複雑なタスクに一般化することができる。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z) - Reverse engineering learned optimizers reveals known and novel
mechanisms [50.50540910474342]
学習は最適化問題を解決するために自らを訓練できるアルゴリズムである。
実験の結果は,学習の動作方法に関するそれまでの曖昧な理解を解明し,今後の学習を解釈するためのツールを確立するのに役立つ。
論文 参考訳(メタデータ) (2020-11-04T07:12:43Z) - Learning with Differentiable Perturbed Optimizers [54.351317101356614]
本稿では,操作を微分可能で局所的に一定ではない操作に変換する手法を提案する。
提案手法は摂動に依拠し,既存の解法とともに容易に利用することができる。
本稿では,この枠組みが,構造化予測において発達した損失の族とどのように結びつくかを示し,学習課題におけるそれらの使用に関する理論的保証を与える。
論文 参考訳(メタデータ) (2020-02-20T11:11:32Z) - Accelerating Reinforcement Learning for Reaching using Continuous
Curriculum Learning [6.703429330486276]
我々は、強化学習(RL)訓練の加速と、多目標到達タスクの性能向上に重点を置いている。
具体的には、トレーニングプロセス中に要件を徐々に調整する精度ベースの継続的カリキュラム学習(PCCL)手法を提案する。
このアプローチは、シミュレーションと実世界のマルチゴールリーチ実験の両方において、ユニバーサルロボット5eを用いてテストされる。
論文 参考訳(メタデータ) (2020-02-07T10:08:18Z) - Optimizing Wireless Systems Using Unsupervised and
Reinforced-Unsupervised Deep Learning [96.01176486957226]
無線ネットワークにおけるリソース割り当てとトランシーバーは、通常最適化問題の解決によって設計される。
本稿では,変数最適化と関数最適化の両問題を解くための教師なし・教師なし学習フレームワークを紹介する。
論文 参考訳(メタデータ) (2020-01-03T11:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。