論文の概要: Optimal Admission Control for Multiclass Queues with Time-Varying
Arrival Rates via State Abstraction
- arxiv url: http://arxiv.org/abs/2203.08019v1
- Date: Mon, 14 Mar 2022 12:38:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-19 14:29:58.379532
- Title: Optimal Admission Control for Multiclass Queues with Time-Varying
Arrival Rates via State Abstraction
- Title(参考訳): 状態抽象化による時変到着率を有する多クラス待ち行列の最適入場制御
- Authors: Marc Rigter and Danial Dervovic and Parisa Hassanzadeh and Jason Long
and Parisa Zehtabi and Daniele Magazzeni
- Abstract要約: 我々は、意思決定者がランダムに到着したタスクを受け入れ、拒否する必要があるという、新しいキュー問題を考える。
目的は、処理されたタスクの総価格が有限の地平線上で最大になるように、どのタスクを受け入れるかを決定することである。
最適値関数は特定の構造を持ち、ハイブリッドMDPを正確に解くことができることを示す。
- 参考スコア(独自算出の注目度): 16.99621896314678
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider a novel queuing problem where the decision-maker must choose to
accept or reject randomly arriving tasks into a no buffer queue which are
processed by $N$ identical servers. Each task has a price, which is a positive
real number, and a class. Each class of task has a different price distribution
and service rate, and arrives according to an inhomogenous Poisson process. The
objective is to decide which tasks to accept so that the total price of tasks
processed is maximised over a finite horizon. We formulate the problem as a
discrete time Markov Decision Process (MDP) with a hybrid state space. We show
that the optimal value function has a specific structure, which enables us to
solve the hybrid MDP exactly. Moreover, we prove that as the time step is
reduced, the discrete time solution approaches the optimal solution to the
original continuous time problem. To improve the scalability of our approach to
a greater number of task classes, we present an approximation based on state
abstraction. We validate our approach on synthetic data, as well as a real
financial fraud data set, which is the motivating application for this work.
- Abstract(参考訳): そこで本研究では,N$同一サーバで処理される非バッファキューにランダムに到着するタスクを受理するか拒否するかを選択しなければならない新たなキュー問題について考察する。
各タスクには価格があり、正の実数であり、クラスである。
各タスクのクラスは、異なる価格分布とサービスレートを持ち、不均一なpoissonプロセスに従って到着する。
目的は、処理されるタスクの総コストが有限の水平線上で最大になるように、どのタスクを受け入れるかを決定することである。
我々は、問題をハイブリッド状態空間を持つ離散時間マルコフ決定過程(mdp)として定式化する。
最適値関数は特定の構造を持ち、ハイブリッドMDPを正確に解くことができることを示す。
さらに、時間ステップが減少するにつれて、離散時間解が元の連続時間問題の最適解に近づくことが証明される。
より多くのタスククラスに対するアプローチのスケーラビリティを向上させるために、状態抽象化に基づく近似を提案する。
我々は,本研究のモチベーションアプリケーションである,合成データおよび実際の金融不正データセットに対するアプローチを検証する。
関連論文リスト
- Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。
提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文 参考訳(メタデータ) (2024-05-07T17:44:54Z) - DASA: Delay-Adaptive Multi-Agent Stochastic Approximation [64.32538247395627]
我々は,N$エージェントが並列に動作し,中央サーバと通信することで,一般的な近似問題を高速化することを目的とした設定を考える。
遅延とストラグラーの効果を軽減するために,マルチエージェント近似のための遅延適応アルゴリズムである textttDASA を提案する。
論文 参考訳(メタデータ) (2024-03-25T22:49:56Z) - Solution Path of Time-varying Markov Random Fields with Discrete
Regularization [7.79230326339002]
本研究では,時間変化確率場(MRF)をパラメータの離散的および時間的正規化で推定する問題について検討する。
すべての空間レベルの解は$mathcalO(Tp3)$で得られ、$T$は時間ステップの数、$p$は任意の時間における未知のパラメータの数である。
論文 参考訳(メタデータ) (2023-07-25T18:19:50Z) - Bayesian Learning of Optimal Policies in Markov Decision Processes with Countably Infinite State-Space [0.0]
離散時間可算状態空間マルコフ決定過程の族を最適に制御する問題について検討する。
動的サイズのエピソードを用いたトンプソンサンプリングに基づくアルゴリズムを提案する。
提案アルゴリズムは, 近似最適制御アルゴリズムの開発に応用可能であることを示す。
論文 参考訳(メタデータ) (2023-06-05T03:57:16Z) - Markov Decision Process modeled with Bandits for Sequential Decision
Making in Linear-flow [73.1896399783641]
会員/加入者の獲得と保持では、複数のページを連続してマーケティングコンテンツを推奨する必要がある。
遷移確率行列をモデル化するためにBandits を用いた MDP としてこの問題を定式化することを提案する。
提案したMDPのBanditsアルゴリズムは,$epsilon$-greedyと$epsilon$-greedy,$epsilon$,IndependentBandits,InteractionBanditsでQ-learningを上回っている。
論文 参考訳(メタデータ) (2021-07-01T03:54:36Z) - Non-Parametric Stochastic Sequential Assignment With Random Arrival
Times [3.871148938060281]
ジョブがランダムに到着し、ランダムな値を仮定する問題を考える。
本稿では,NPSA(Non-Parametric Sequential Allocation)アルゴリズムを提案する。
NPSAアルゴリズムによって返される期待報酬は、M$が大きくなるにつれて、最適性に収束することを示す。
論文 参考訳(メタデータ) (2021-06-09T09:41:38Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - Acting in Delayed Environments with Non-Stationary Markov Policies [57.52103323209643]
本稿では,MDPにおける学習と計画のためのフレームワークについて紹介する。
実行が遅れると、元の状態空間における決定論的マルコフポリシーは最大報酬を得るのに十分であるが、非定常である必要があることを証明します。
我々は、状態拡張に頼らずに遅延実行タスクを解く非定常Q学習スタイルのモデルベースアルゴリズムを考案した。
論文 参考訳(メタデータ) (2021-01-28T13:35:37Z) - Contrastive Losses and Solution Caching for Predict-and-Optimize [19.31153168397003]
ノイズコントラスト法を用いて、サロゲート損失関数の族を動機付ける。
すべての予測と最適化アプローチのボトルネックに対処する。
非常に遅い成長率でさえ、最先端の手法の質に合わせるのに十分であることを示す。
論文 参考訳(メタデータ) (2020-11-10T19:09:12Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Provably Efficient Model-Free Algorithm for MDPs with Peak Constraints [38.2783003051101]
本稿では,有限地平線における全報酬の最大化と,各エポックにおける制約を確率1で満たすため,エージェントがポリシーを選択する,制約付きマルコフ決定プロセス(PCMDP)について考察する。
そこで本研究では,PCMDP問題を制約のない問題に変換するモデルフリーアルゴリズムを提案し,Q-ラーニングに基づくアプローチを適用した。
論文 参考訳(メタデータ) (2020-03-11T23:23:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。