論文の概要: Non-Parametric Stochastic Sequential Assignment With Random Arrival
Times
- arxiv url: http://arxiv.org/abs/2106.04944v1
- Date: Wed, 9 Jun 2021 09:41:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 15:32:46.961754
- Title: Non-Parametric Stochastic Sequential Assignment With Random Arrival
Times
- Title(参考訳): Random Arrival Times を用いた非パラメトリック確率列アサインメント
- Authors: Danial Dervovic, Parisa Hassanzadeh, Samuel Assefa, Prashant Reddy
- Abstract要約: ジョブがランダムに到着し、ランダムな値を仮定する問題を考える。
本稿では,NPSA(Non-Parametric Sequential Allocation)アルゴリズムを提案する。
NPSAアルゴリズムによって返される期待報酬は、M$が大きくなるにつれて、最適性に収束することを示す。
- 参考スコア(独自算出の注目度): 3.871148938060281
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a problem wherein jobs arrive at random times and assume random
values. Upon each job arrival, the decision-maker must decide immediately
whether or not to accept the job and gain the value on offer as a reward, with
the constraint that they may only accept at most $n$ jobs over some reference
time period. The decision-maker only has access to $M$ independent realisations
of the job arrival process. We propose an algorithm, Non-Parametric Sequential
Allocation (NPSA), for solving this problem. Moreover, we prove that the
expected reward returned by the NPSA algorithm converges in probability to
optimality as $M$ grows large. We demonstrate the effectiveness of the
algorithm empirically on synthetic data and on public fraud-detection datasets,
from where the motivation for this work is derived.
- Abstract(参考訳): ジョブがランダムな時間に到達し、ランダムな値を仮定する問題を考える。
各ジョブが到着すると、意思決定者は、一定期間に最大$n$のジョブしか受け付けないという制約により、ジョブを受け付けるか否かを即座に判断し、報酬としてオファーの価値を得る必要がある。
意思決定者は、求人プロセスの独立した実現に100万ドルしかアクセスできない。
本稿では,NPSA(Non-Parametric Sequential Allocation)アルゴリズムを提案する。
さらに、NPSAアルゴリズムによって返される期待報酬が、M$が大きくなるにつれて、最適性に収束することを示す。
本研究では,このアルゴリズムが合成データや公開不正検出データセットに実証的に有効であることを示す。
関連論文リスト
- Online POMDP Planning with Anytime Deterministic Guarantees [11.157761902108692]
不確実性の下での計画は、部分的に観測可能なマルコフ決定プロセス(POMDP)を用いて数学的に定式化できる
POMDPの最適計画を見つけるには計算コストがかかり、小さなタスクにのみ適用可能である。
簡便な解と理論的に最適な解との決定論的関係を導出する。
論文 参考訳(メタデータ) (2023-10-03T04:40:38Z) - Bayesian Learning of Optimal Policies in Markov Decision Processes with Countably Infinite State-Space [0.0]
離散時間可算状態空間マルコフ決定過程の族を最適に制御する問題について検討する。
動的サイズのエピソードを用いたトンプソンサンプリングに基づくアルゴリズムを提案する。
提案アルゴリズムは, 近似最適制御アルゴリズムの開発に応用可能であることを示す。
論文 参考訳(メタデータ) (2023-06-05T03:57:16Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Active Sampling of Multiple Sources for Sequential Estimation [92.37271004438406]
本研究の目的は,パラメータを逐次推定するアクティブサンプリングアルゴリズムを設計し,信頼性の高い推定値を生成することである。
本稿では, エンフ条件推定コスト関数を導入し, 最近, トラクタブル解析を施した逐次推定手法を提案する。
論文 参考訳(メタデータ) (2022-08-10T15:58:05Z) - Efficient Algorithms for Planning with Participation Constraints [74.74967476995572]
我々は[Zhang et al., 2022]に導入された参加制約を伴う計画の問題を考える。
この問題では、プリンシパルが決定プロセスのアクションを選択し、プリンシパルとエージェントの別々のユーティリティが生成される。
有限ホライズン設定では,これまでは$varepsilon$-approximationという付加値しか知られていなかった。
論文 参考訳(メタデータ) (2022-05-16T15:47:41Z) - Optimal Admission Control for Multiclass Queues with Time-Varying
Arrival Rates via State Abstraction [16.99621896314678]
我々は、意思決定者がランダムに到着したタスクを受け入れ、拒否する必要があるという、新しいキュー問題を考える。
目的は、処理されたタスクの総価格が有限の地平線上で最大になるように、どのタスクを受け入れるかを決定することである。
最適値関数は特定の構造を持ち、ハイブリッドMDPを正確に解くことができることを示す。
論文 参考訳(メタデータ) (2022-03-14T12:38:13Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - Learning to Schedule [3.5408022972081685]
本稿では,ジョブが生み出す累積保持コストを最小限に抑えるための学習・スケジューリングアルゴリズムを提案する。
各タイムスロットにおいて、サーバはシステムに残されているジョブのランダム保持コストを受信しながらジョブを処理できる。
論文 参考訳(メタデータ) (2021-05-28T08:04:06Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。