論文の概要: Optimal Control of Fluid Restless Multi-armed Bandits: A Machine Learning Approach
- arxiv url: http://arxiv.org/abs/2502.03725v1
- Date: Thu, 06 Feb 2025 02:34:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:32:07.272648
- Title: Optimal Control of Fluid Restless Multi-armed Bandits: A Machine Learning Approach
- Title(参考訳): 流体レストレスマルチアームバンドの最適制御:機械学習によるアプローチ
- Authors: Dimitris Bertsimas, Cheol Woo Kim, José Niño-Mora,
- Abstract要約: 流体レスレスマルチアームバンディット(FRMAB)の最適制御のための機械学習手法を提案する。
FRMAB問題の基本特性を導出することにより,効率的な機械学習に基づくアルゴリズムを設計する。
提案手法は高品質な状態フィードバックポリシを出力し,流体問題に対する直接数値アルゴリズムと比較して最大2600万倍の高速化を実現する。
- 参考スコア(独自算出の注目度): 5.22980614912553
- License:
- Abstract: We propose a machine learning approach to the optimal control of fluid restless multi-armed bandits (FRMABs) with state equations that are either affine or quadratic in the state variables. By deriving fundamental properties of FRMAB problems, we design an efficient machine learning based algorithm. Using this algorithm, we solve multiple instances with varying initial states to generate a comprehensive training set. We then learn a state feedback policy using Optimal Classification Trees with hyperplane splits (OCT-H). We test our approach on machine maintenance, epidemic control and fisheries control problems. Our method yields high-quality state feedback policies and achieves a speed-up of up to 26 million times compared to a direct numerical algorithm for fluid problems.
- Abstract(参考訳): 本研究では,流体レスレスマルチアームバンディット(FRMAB)の最適制御のための機械学習手法を提案する。
FRMAB問題の基本特性を導出することにより,効率的な機械学習に基づくアルゴリズムを設計する。
このアルゴリズムを用いて、初期状態の異なる複数のインスタンスを解き、総合的なトレーニングセットを生成する。
次に、超平面分割を用いた最適分類木(OCT-H)を用いて状態フィードバックポリシーを学習する。
我々は, 機械保守, 疫病対策, 漁業管理問題に対するアプローチを検証した。
提案手法は高品質な状態フィードバックポリシを出力し,流体問題に対する直接数値アルゴリズムと比較して最大2600万倍の高速化を実現する。
関連論文リスト
- Stochastic Optimal Control Matching [53.156277491861985]
最適制御のための新しい反復拡散最適化(IDO)技術である最適制御マッチング(SOCM)を導入する。
この制御は、一致するベクトル場に適合しようとすることで、最小二乗問題を通じて学習される。
実験により,本アルゴリズムは最適制御のための既存のすべての IDO 手法よりも低い誤差を実現する。
論文 参考訳(メタデータ) (2023-12-04T16:49:43Z) - Interpretable Option Discovery using Deep Q-Learning and Variational
Autoencoders [9.432068833600884]
DVQNアルゴリズムは、オプションベースの強化学習における開始条件と終了条件を特定するための有望なアプローチである。
実験により、DVQNアルゴリズムは自動開始と終了で、Rainbowに匹敵する性能を示した。
論文 参考訳(メタデータ) (2022-10-03T21:08:39Z) - Comparative analysis of machine learning methods for active flow control [60.53767050487434]
遺伝的プログラミング(GP)と強化学習(RL)はフロー制御において人気を集めている。
この研究は2つの比較分析を行い、地球規模の最適化手法に対して最も代表的なアルゴリズムのいくつかをベンチマークする。
論文 参考訳(メタデータ) (2022-02-23T18:11:19Z) - Fast Block Linear System Solver Using Q-Learning Schduling for Unified
Dynamic Power System Simulations [2.1509980377118767]
タスクスケジューリングにQ-ラーニングに基づく新しい手法を用いる。
KLUより2~6倍高速であることを示す。
論文 参考訳(メタデータ) (2021-10-12T09:10:27Z) - Continuous-Time Fitted Value Iteration for Robust Policies [93.25997466553929]
ハミルトン・ヤコビ・ベルマン方程式の解法は、制御、ロボティクス、経済学を含む多くの領域において重要である。
連続適合値反復(cFVI)とロバスト適合値反復(rFVI)を提案する。
これらのアルゴリズムは、多くの連続制御問題の非線形制御-アフィンダイナミクスと分離可能な状態とアクション報酬を利用する。
論文 参考訳(メタデータ) (2021-10-05T11:33:37Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Assessment of machine learning methods for state-to-state approaches [0.0]
状態間アプローチにおける機械学習手法の適用の可能性について検討する。
ディープニューラルネットワークは、これらのタスクでも実行可能な技術であるようだ。
論文 参考訳(メタデータ) (2021-04-02T13:27:23Z) - Efficient Automatic CASH via Rising Bandits [37.09843193057032]
CASH問題に対する交互最適化フレームワークを提案する。
また、CASHのアルゴリズム選択をモデル化するために、CASH指向のマルチアーマドバンド(MAB)バリアントであるRising Banditsも紹介します。
このフレームワークは、HPO問題を解決するBOとアルゴリズムの選択を加速するMABの両方の利点を利用することができる。
論文 参考訳(メタデータ) (2020-12-08T11:29:57Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。