Fugu-MT 論文翻訳(概要): Learning to Do or Learning While Doing: Reinforcement Learning and Bayesian Optimisation for Online Continuous Tuning

論文の概要: Learning to Do or Learning While Doing: Reinforcement Learning and Bayesian Optimisation for Online Continuous Tuning

arxiv url: http://arxiv.org/abs/2306.03739v1
Date: Tue, 6 Jun 2023 14:56:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-07 14:56:13.195201
Title: Learning to Do or Learning While Doing: Reinforcement Learning and Bayesian Optimisation for Online Continuous Tuning
Title（参考訳）: 実行中の学習と学習--オンライン連続チューニングのための強化学習とベイズ最適化
Authors: Jan Kaiser, Chenran Xu, Annika Eichler, Andrea Santamaria Garcia, Oliver Stein, Erik Br\"undermann, Willi Kuropka, Hannes Dinter, Frank Mayet, Thomas Vinatier, Florian Burkart, Holger Schlarb
Abstract要約: 本稿では,実粒子加速器におけるルーチンタスクを用いた比較研究を例に挙げる。本研究の結果から,与えられたチューニングタスクに対するアルゴリズムの選択を導くための明確な基準セットを提供する。これにより、複雑な現実世界のプラントの運用において、学習ベースの自律的チューニングソリューションの採用が容易になる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Online tuning of real-world plants is a complex optimisation problem that continues to require manual intervention by experienced human operators. Autonomous tuning is a rapidly expanding field of research, where learning-based methods, such as Reinforcement Learning-trained Optimisation (RLO) and Bayesian optimisation (BO), hold great promise for achieving outstanding plant performance and reducing tuning times. Which algorithm to choose in different scenarios, however, remains an open question. Here we present a comparative study using a routine task in a real particle accelerator as an example, showing that RLO generally outperforms BO, but is not always the best choice. Based on the study's results, we provide a clear set of criteria to guide the choice of algorithm for a given tuning task. These can ease the adoption of learning-based autonomous tuning solutions to the operation of complex real-world plants, ultimately improving the availability and pushing the limits of operability of these facilities, thereby enabling scientific and engineering advancements.
Abstract（参考訳）: 実世界の植物のオンラインチューニングは複雑な最適化問題であり、経験豊富な人間の操作者が手動で介入する必要がある。自律的チューニングは、強化学習訓練最適化(RLO)やベイズ最適化(BO)のような学習に基づく手法が、優れた植物性能とチューニング時間の短縮を約束する、急速に普及する研究分野である。しかし、どのアルゴリズムを異なるシナリオで選ぶかは未解決のままだ。ここでは、実粒子加速器におけるルーチンタスクを用いた比較研究を行い、RLOがBOより一般的に優れているが、必ずしも最良の選択ではないことを示す。本研究の結果に基づき,与えられたチューニングタスクに対するアルゴリズムの選択を導くための明確な基準セットを提案する。これにより、複雑な現実世界のプラントの運用に対する学習に基づく自律的なチューニングソリューションの導入が容易になり、最終的にはこれらの施設の可用性を改善し、運用の限界を押し上げ、科学と工学の進歩を可能にする。

関連論文リスト

Demonstration of effective UCB-based routing in skill-based queues on real-world data [0.4077787659104315]
本稿では,データセンタやクラウドコンピューティングネットワーク,サービスシステムといった,スキルベースのキューシステムを最適に制御することを目的とする。実世界のデータセットを用いたケーススタディにより,最近開発された最適顧客ルーティングのための強化学習の実践的実装について検討する。
論文参考訳（メタデータ） (2025-06-25T15:36:43Z)
ToolACE-R: Tool Learning with Adaptive Self-Refinement [84.69651852838794]
ツール学習により、大規模言語モデルは複雑なユーザタスクを解決するための外部ツールを活用することができる。本稿では,ツール実行のための適応型自己調整手法であるToolACE-Rを提案する。提案手法は,様々なサイズのベースモデルと互換性のある提案手法の有効性を実証した。
論文参考訳（メタデータ） (2025-04-02T06:38:56Z)
A New Paradigm in Tuning Learned Indexes: A Reinforcement Learning Enhanced Approach [6.454589614577438]
本稿ではLearted Index Structuresのエンドツーエンド自動チューニングのための新しいフレームワークであるLITuneを紹介する。 LITuneは、安定的で効率的なチューニングを保証するために、テーラーメイドのDeep Reinforcement Learning (DRL)アプローチを備えた適応的なトレーニングパイプラインを使用している。 LITuneは最大98%のランタイム削減と17倍のスループット向上を実現している。
論文参考訳（メタデータ） (2025-02-07T15:22:15Z)
Beyond Training: Optimizing Reinforcement Learning Based Job Shop Scheduling Through Adaptive Action Sampling [10.931466852026663]
推論における訓練深部強化学習(DRL)エージェントの最適利用について検討した。我々の研究は、探索アルゴリズムと同様に、訓練されたDRLエージェントの利用は許容できる計算予算に依存するべきであるという仮説に基づいている。そこで本稿では, 与えられた多数の解と任意の訓練されたエージェントに対して最適なパラメータ化を求めるアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-06-11T14:59:18Z)
Large Language Models for Human-Machine Collaborative Particle Accelerator Tuning through Natural Language [14.551969747057642]
本稿では,粒子加速器をチューニングするための大規模言語モデル (LLM) を提案する。演算子からの自然言語のみに基づいて,LLMが粒子加速器サブシステムを正常かつ自律的にチューニングできることを実証する。また,LLMが高非線形実世界の目的関数の数値最適化を行う方法を示す。
論文参考訳（メタデータ） (2024-05-14T18:05:44Z)
SPO: Sequential Monte Carlo Policy Optimisation [41.52684912140086]
SPO:Sequential Monte Carlo Policy optimizationを紹介する。我々は,SPOがロバストな政策改善と効率的なスケーリング特性を提供することを示した。モデルフリーおよびモデルベースラインと比較して,統計的に有意な性能向上を示す。
論文参考訳（メタデータ） (2024-02-12T10:32:47Z)
RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文参考訳（メタデータ） (2023-11-21T21:05:21Z)
Mechanic: A Learning Rate Tuner [52.4242550204696]
我々は,任意の基本最適化アルゴリズムの学習率尺度係数を調整し,自動的にスケジュールする手法を導入し,それをテクスチャメカニックと呼ぶ。各種バッチサイズ,スケジュール,基本最適化アルゴリズムを用いて,大規模深層学習タスクにおけるテクスチャメカニックを厳格に評価する。
論文参考訳（メタデータ） (2023-05-31T19:32:43Z)
Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文参考訳（メタデータ） (2023-02-03T00:11:02Z)
Reverse engineering learned optimizers reveals known and novel mechanisms [50.50540910474342]
学習は最適化問題を解決するために自らを訓練できるアルゴリズムである。実験の結果は,学習の動作方法に関するそれまでの曖昧な理解を解明し,今後の学習を解釈するためのツールを確立するのに役立つ。
論文参考訳（メタデータ） (2020-11-04T07:12:43Z)
Learning with Differentiable Perturbed Optimizers [54.351317101356614]
本稿では,操作を微分可能で局所的に一定ではない操作に変換する手法を提案する。提案手法は摂動に依拠し,既存の解法とともに容易に利用することができる。本稿では,この枠組みが,構造化予測において発達した損失の族とどのように結びつくかを示し,学習課題におけるそれらの使用に関する理論的保証を与える。
論文参考訳（メタデータ） (2020-02-20T11:11:32Z)
Optimizing Wireless Systems Using Unsupervised and Reinforced-Unsupervised Deep Learning [96.01176486957226]
無線ネットワークにおけるリソース割り当てとトランシーバーは、通常最適化問題の解決によって設計される。本稿では,変数最適化と関数最適化の両問題を解くための教師なし・教師なし学習フレームワークを紹介する。
論文参考訳（メタデータ） (2020-01-03T11:01:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。