論文の概要: Time-Series-Informed Closed-loop Learning for Sequential Decision Making and Control
- arxiv url: http://arxiv.org/abs/2412.02423v1
- Date: Tue, 03 Dec 2024 12:38:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:40:45.366451
- Title: Time-Series-Informed Closed-loop Learning for Sequential Decision Making and Control
- Title(参考訳): 時系列インフォームド・クローズドループ学習によるシーケンス決定と制御
- Authors: Sebastian Hirt, Lukas Theiner, Rolf Findeisen,
- Abstract要約: 伝統的なベイズ最適化アプローチは、学習問題をブラックボックスとして扱い、基礎となる問題の構造に関する貴重な情報や知識を無視している。
本稿では,各実験エピソードの初期イテレーションから中間性能評価を学習手順に組み込んだ時系列インフォームド最適化フレームワークを提案する。
提案手法は, ほぼ半分の資源でベースライン性能を達成し, 最終的なクローズドループ性能においてベースライン性能より優れていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Closed-loop performance of sequential decision making algorithms, such as model predictive control, depends strongly on the parameters of cost functions, models, and constraints. Bayesian optimization is a common approach to learning these parameters based on closed-loop experiments. However, traditional Bayesian optimization approaches treat the learning problem as a black box, ignoring valuable information and knowledge about the structure of the underlying problem, resulting in slow convergence and high experimental resource use. We propose a time-series-informed optimization framework that incorporates intermediate performance evaluations from early iterations of each experimental episode into the learning procedure. Additionally, probabilistic early stopping criteria are proposed to terminate unpromising experiments, significantly reducing experimental time. Simulation results show that our approach achieves baseline performance with approximately half the resources. Moreover, with the same resource budget, our approach outperforms the baseline in terms of final closed-loop performance, highlighting its efficiency in sequential decision making scenarios.
- Abstract(参考訳): モデル予測制御のような逐次決定アルゴリズムの閉ループ性能は、コスト関数、モデル、制約のパラメータに強く依存する。
ベイズ最適化は閉ループ実験に基づいてこれらのパラメータを学習する一般的な手法である。
しかし、伝統的なベイズ最適化アプローチは学習問題をブラックボックスとして扱い、基礎となる問題の構造に関する貴重な情報や知識を無視し、緩やかな収束と高い実験的な資源利用をもたらす。
本稿では,各実験エピソードの初期イテレーションから中間性能評価を学習手順に組み込んだ時系列インフォームド最適化フレームワークを提案する。
さらに、確率論的早期停止基準を提案し、未進行実験を終了させ、実験時間を著しく短縮した。
シミュレーションの結果,提案手法は,約半分の資源でベースライン性能を達成できることが示唆された。
さらに,リソース予算が同じで,最終的なクローズドループ性能においてベースラインを上回り,シーケンシャルな意思決定シナリオにおける効率性を強調した。
関連論文リスト
- Bayesian Optimization for Non-Convex Two-Stage Stochastic Optimization Problems [2.9016548477524156]
知識段階に基づく獲得関数を定式化し、最初の変数を協調的に最適化し、一貫性の保証を確立し、近似を与える。
2つの変数型間で交互にフォーカスを減らして定式化する方法と同等な経験結果を示す。
論文 参考訳(メタデータ) (2024-08-30T16:26:31Z) - Learning From Scenarios for Stochastic Repairable Scheduling [3.9948520633731026]
本研究では,スムーシングに基づく意思決定型学習手法がスケジューリング問題にどのように適応できるかを示す。
本研究では,意思決定に焦点をあてた学習が,このような状況において,どのような状況において技術状況を上回るかを検証するための実験的な評価を含む:シナリオベース最適化。
論文 参考訳(メタデータ) (2023-12-06T13:32:17Z) - Predict-Then-Optimize by Proxy: Learning Joint Models of Prediction and
Optimization [59.386153202037086]
Predict-Then-フレームワークは、機械学習モデルを使用して、最適化問題の未知のパラメータを、解決前の機能から予測する。
このアプローチは非効率であり、最適化ステップを通じてバックプロパゲーションのための手作りの、問題固有のルールを必要とする。
本稿では,予測モデルを用いて観測可能な特徴から最適解を直接学習する手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T01:32:06Z) - Primal-Dual Contextual Bayesian Optimization for Control System Online
Optimization with Time-Average Constraints [21.38692458445459]
本稿では,制約付き閉ループ制御システムのオンライン性能最適化問題について検討する。
動的最適解に対する線形累積後悔を克服する主元-双対文脈ベイズ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-12T18:37:52Z) - Efficient Real-world Testing of Causal Decision Making via Bayesian
Experimental Design for Contextual Optimisation [12.37745209793872]
文脈的意思決定の評価と改善のためのデータ収集のためのモデルに依存しないフレームワークを提案する。
過去の治療課題の後悔をデータ効率で評価するために,本手法を用いた。
論文 参考訳(メタデータ) (2022-07-12T01:20:11Z) - Fast Rates for Contextual Linear Optimization [52.39202699484225]
提案手法は, 下流決定性能を直接最適化する手法よりもはるかに高速な, 後悔の収束率を実現する。
予測モデルは、既存のツールを使ったトレーニングが簡単かつ高速で、解釈が簡単で、私たちが示しているように、非常にうまく機能する決定につながる。
論文 参考訳(メタデータ) (2020-11-05T18:43:59Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Excursion Search for Constrained Bayesian Optimization under a Limited
Budget of Failures [62.41541049302712]
本稿では,所定の予算の失敗の関数として探索において許容されるリスクの量を制御する制御理論に基づく新しい意思決定者を提案する。
本アルゴリズムは, 種々の最適化実験において, 故障予算をより効率的に利用し, 一般に, 最先端の手法よりも, 後悔度を低くする。
論文 参考訳(メタデータ) (2020-05-15T09:54:09Z) - Time-varying Gaussian Process Bandit Optimization with Non-constant
Evaluation Time [93.6788993843846]
非定常評価時間を効果的に処理できる新しい時間変化ベイズ最適化アルゴリズムを提案する。
我々の限界は、評価時間列のパターンが問題の難易度に大きな影響を与えることを決定づける。
論文 参考訳(メタデータ) (2020-03-10T13:28:33Z) - Learning with Differentiable Perturbed Optimizers [54.351317101356614]
本稿では,操作を微分可能で局所的に一定ではない操作に変換する手法を提案する。
提案手法は摂動に依拠し,既存の解法とともに容易に利用することができる。
本稿では,この枠組みが,構造化予測において発達した損失の族とどのように結びつくかを示し,学習課題におけるそれらの使用に関する理論的保証を与える。
論文 参考訳(メタデータ) (2020-02-20T11:11:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。