論文の概要: Optimal Control of Multiclass Fluid Queueing Networks: A Machine
Learning Approach
- arxiv url: http://arxiv.org/abs/2307.12405v1
- Date: Sun, 23 Jul 2023 19:12:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 16:22:14.834642
- Title: Optimal Control of Multiclass Fluid Queueing Networks: A Machine
Learning Approach
- Title(参考訳): マルチクラス流体キューネットワークの最適制御:機械学習によるアプローチ
- Authors: Dimitris Bertsimas, Cheol Woo Kim
- Abstract要約: マルチクラス流体待ち行列ネットワーク(MFQNET)の最適制御のための機械学習手法を提案する。
しきい値曲線が原点を通る超平面であるMFQNET制御問題に対して、しきい値型最適ポリシーが存在することを証明した。
我々は、MFQNET制御問題の数値解をトレーニングセットとして使用し、OCT-Hを用いて明示的な制御ポリシーを学習する。
- 参考スコア(独自算出の注目度): 3.7565501074323224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a machine learning approach to the optimal control of multiclass
fluid queueing networks (MFQNETs) that provides explicit and insightful control
policies. We prove that a threshold type optimal policy exists for MFQNET
control problems, where the threshold curves are hyperplanes passing through
the origin. We use Optimal Classification Trees with hyperplane splits (OCT-H)
to learn an optimal control policy for MFQNETs. We use numerical solutions of
MFQNET control problems as a training set and apply OCT-H to learn explicit
control policies. We report experimental results with up to 33 servers and 99
classes that demonstrate that the learned policies achieve 100\% accuracy on
the test set. While the offline training of OCT-H can take days in large
networks, the online application takes milliseconds.
- Abstract(参考訳): 本稿では,明示的かつ洞察に富んだ制御ポリシーを提供するマルチクラス流体待ち行列ネットワーク(mfqnets)の最適制御のための機械学習手法を提案する。
しきい値曲線が原点を通る超平面であるMFQNET制御問題に対して、しきい値型最適ポリシーが存在することを示す。
超平面分割(oct-h)を持つ最適分類木を用いてmfqnetの最適制御方針を学習する。
我々は,mfqnet制御問題の数値解をトレーニングセットとして使用し,oct-hを用いて明示的な制御方針を学習する。
最大33台のサーバと99のクラスで実験結果を報告し、学習したポリシーがテストセット上で100\%の精度を達成することを実証した。
OCT-Hのオフライントレーニングは大規模なネットワークで数日かかるが、オンラインアプリケーションはミリ秒かかる。
関連論文リスト
- Learning RL-Policies for Joint Beamforming Without Exploration: A Batch
Constrained Off-Policy Approach [1.0080317855851213]
本稿では,ネットワークにおけるパラメータキャンセル最適化の問題点について考察する。
探索と学習のために実世界でアルゴリズムをデプロイすることは、探索せずにデータによって達成できることを示す。
論文 参考訳(メタデータ) (2023-10-12T18:36:36Z) - Mildly Constrained Evaluation Policy for Offline Reinforcement Learning [12.465177007346176]
オフライン強化学習(RL)手法は、行動方針に忠実に従うためにポリシーに制約を課す。
我々は、より制約のあるテキストターゲットポリシーを用いて、テスト時間推定のためのtextitMildly Constrained Evaluation Policy (MCEP) を提案する。
論文 参考訳(メタデータ) (2023-06-06T13:43:09Z) - Distributed-Training-and-Execution Multi-Agent Reinforcement Learning
for Power Control in HetNet [48.96004919910818]
We propose a multi-agent Deep reinforcement learning (MADRL) based power control scheme for the HetNet。
エージェント間の協調を促進するために,MADRLシステムのためのペナルティベースQラーニング(PQL)アルゴリズムを開発した。
このように、エージェントのポリシーは、他のエージェントによってより容易に学習でき、より効率的なコラボレーションプロセスをもたらす。
論文 参考訳(メタデータ) (2022-12-15T17:01:56Z) - Efficiently Learning Small Policies for Locomotion and Manipulation [12.340412143459869]
グラフハイパーネットワークを活用して、非政治強化学習で訓練されたグラフハイパーポリシーを学習する。
本手法は,任意の非政治強化学習アルゴリズムに付加可能であることを示す。
パラメータ数に対する制約を考慮し,最適なアーキテクチャを選択する方法を提案する。
論文 参考訳(メタデータ) (2022-09-30T23:49:00Z) - Learning Optimal Antenna Tilt Control Policies: A Contextual Linear
Bandit Approach [65.27783264330711]
セルラーネットワークにおけるアンテナ傾きの制御は、ネットワークのカバレッジとキャパシティの間の効率的なトレードオフに到達するために不可欠である。
既存のデータから最適な傾き制御ポリシーを学習するアルゴリズムを考案する。
従来のルールベースの学習アルゴリズムよりもはるかに少ないデータサンプルを用いて最適な傾き更新ポリシーを作成できることを示す。
論文 参考訳(メタデータ) (2022-01-06T18:24:30Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Imitation Learning from MPC for Quadrupedal Multi-Gait Control [63.617157490920505]
本稿では,歩行ロボットの複数の歩行を模倣する単一ポリシーを学習する学習アルゴリズムを提案する。
モデル予測制御によって導かれる模擬学習のアプローチであるMPC-Netを使用し、拡張します。
ハードウェアに対する我々のアプローチを検証し、学習したポリシーが教師に取って代わって複数の歩留まりを制御できることを示します。
論文 参考訳(メタデータ) (2021-03-26T08:48:53Z) - RL-QN: A Reinforcement Learning Framework for Optimal Control of
Queueing Systems [8.611328447624677]
モデルベース強化学習(RL)を用いて、待ち行列ネットワークの最適制御ポリシーを学習する。
しかし、従来のRLのアプローチでは、ネットワーク制御問題の非有界状態空間は扱えない。
我々は、状態空間の有限部分集合にモデルベースのRL法を適用するReinforcement Learning for Queueing Networks (RL-QN)と呼ばれる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-14T22:12:27Z) - Scheduling and Power Control for Wireless Multicast Systems via Deep
Reinforcement Learning [33.737301955006345]
無線システムにおけるマルチキャストは、コンテンツ中心ネットワークにおけるユーザ要求の冗長性を利用する方法である。
電力制御と最適スケジューリングは、衰退中の無線マルチキャストネットワークの性能を著しく向上させることができる。
提案手法により, 大規模システムに対して, 電力制御ポリシを学習可能であることを示す。
論文 参考訳(メタデータ) (2020-09-27T15:59:44Z) - Learning High-Level Policies for Model Predictive Control [54.00297896763184]
Model Predictive Control (MPC)は、ロボット制御タスクに対する堅牢なソリューションを提供する。
ニューラルネットワークの高レベルポリシーを学習するための自己教師付き学習アルゴリズムを提案する。
提案手法は, 標準的なMPCでは困難な状況に対処できることを示す。
論文 参考訳(メタデータ) (2020-07-20T17:12:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。