Fugu-MT 論文翻訳(概要): Non-Parametric Stochastic Sequential Assignment With Random Arrival Times

論文の概要: Non-Parametric Stochastic Sequential Assignment With Random Arrival Times

arxiv url: http://arxiv.org/abs/2106.04944v1
Date: Wed, 9 Jun 2021 09:41:38 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-10 15:32:46.961754
Title: Non-Parametric Stochastic Sequential Assignment With Random Arrival Times
Title（参考訳）: Random Arrival Times を用いた非パラメトリック確率列アサインメント
Authors: Danial Dervovic, Parisa Hassanzadeh, Samuel Assefa, Prashant Reddy
Abstract要約: ジョブがランダムに到着し、ランダムな値を仮定する問題を考える。本稿では,NPSA(Non-Parametric Sequential Allocation)アルゴリズムを提案する。 NPSAアルゴリズムによって返される期待報酬は、M$が大きくなるにつれて、最適性に収束することを示す。
参考スコア（独自算出の注目度）: 3.871148938060281
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider a problem wherein jobs arrive at random times and assume random values. Upon each job arrival, the decision-maker must decide immediately whether or not to accept the job and gain the value on offer as a reward, with the constraint that they may only accept at most $n$ jobs over some reference time period. The decision-maker only has access to $M$ independent realisations of the job arrival process. We propose an algorithm, Non-Parametric Sequential Allocation (NPSA), for solving this problem. Moreover, we prove that the expected reward returned by the NPSA algorithm converges in probability to optimality as $M$ grows large. We demonstrate the effectiveness of the algorithm empirically on synthetic data and on public fraud-detection datasets, from where the motivation for this work is derived.
Abstract（参考訳）: ジョブがランダムな時間に到達し、ランダムな値を仮定する問題を考える。各ジョブが到着すると、意思決定者は、一定期間に最大$n$のジョブしか受け付けないという制約により、ジョブを受け付けるか否かを即座に判断し、報酬としてオファーの価値を得る必要がある。意思決定者は、求人プロセスの独立した実現に100万ドルしかアクセスできない。本稿では,NPSA(Non-Parametric Sequential Allocation)アルゴリズムを提案する。さらに、NPSAアルゴリズムによって返される期待報酬が、M$が大きくなるにつれて、最適性に収束することを示す。本研究では,このアルゴリズムが合成データや公開不正検出データセットに実証的に有効であることを示す。

関連論文リスト

A Principled Approach to Randomized Selection under Uncertainty: Applications to Peer Review and Grant Funding [68.43987626137512]
本稿では,各項目の品質の間隔推定に基づくランダム化意思決定の枠組みを提案する。最適化に基づく最適化手法であるMERITを導入する。 MERITが既存のアプローチで保証されていない望ましい公理特性を満たすことを証明している。
論文参考訳（メタデータ） (2025-06-23T19:59:30Z)
Better Rates for Random Task Orderings in Continual Linear Models [50.11453013647086]
以前見られたタスクの損失を、$k$の繰り返しの後、忘れること、すなわち、分析する。実現可能な最小二乗の設定において、新しい最期境界を開発し、それらを連続学習に応用する。タスクを繰り返しないランダム化だけで、十分に長いタスクで破滅的な忘れを防げることが、初めて証明された。
論文参考訳（メタデータ） (2025-04-06T18:39:45Z)
Adversarially-Robust TD Learning with Markovian Data: Finite-Time Rates and Fundamental Limits [2.07180164747172]
厳しい現実世界の環境に動機付けられ、敵の堅牢性の観点から政策評価問題を再考する。我々はRobust-TDと呼ばれる新しいアルゴリズムを開発し、その有限時間保証がバニラTDの線形関数近似と小さな$O(epsilon)$項に一致することを証明した。我々の知る限り、これらの結果はマルコフノイズによって駆動される敵近似スキームの文脈における最初のものである。
論文参考訳（メタデータ） (2025-02-07T05:05:42Z)
Online POMDP Planning with Anytime Deterministic Guarantees [11.157761902108692]
不確実性の下での計画は、部分的に観測可能なマルコフ決定プロセス(POMDP)を用いて数学的に定式化できる POMDPの最適計画を見つけるには計算コストがかかり、小さなタスクにのみ適用可能である。簡便な解と理論的に最適な解との決定論的関係を導出する。
論文参考訳（メタデータ） (2023-10-03T04:40:38Z)
Bayesian Learning of Optimal Policies in Markov Decision Processes with Countably Infinite State-Space [0.0]
離散時間可算状態空間マルコフ決定過程の族を最適に制御する問題について検討する。動的サイズのエピソードを用いたトンプソンサンプリングに基づくアルゴリズムを提案する。提案アルゴリズムは, 近似最適制御アルゴリズムの開発に応用可能であることを示す。
論文参考訳（メタデータ） (2023-06-05T03:57:16Z)
Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。 IRLの多くのアルゴリズムは本質的にネスト構造を持つ。我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文参考訳（メタデータ） (2022-10-04T17:13:45Z)
Active Sampling of Multiple Sources for Sequential Estimation [92.37271004438406]
本研究の目的は,パラメータを逐次推定するアクティブサンプリングアルゴリズムを設計し,信頼性の高い推定値を生成することである。本稿では, エンフ条件推定コスト関数を導入し, 最近, トラクタブル解析を施した逐次推定手法を提案する。
論文参考訳（メタデータ） (2022-08-10T15:58:05Z)
Efficient Algorithms for Planning with Participation Constraints [74.74967476995572]
我々は[Zhang et al., 2022]に導入された参加制約を伴う計画の問題を考える。この問題では、プリンシパルが決定プロセスのアクションを選択し、プリンシパルとエージェントの別々のユーティリティが生成される。有限ホライズン設定では,これまでは$varepsilon$-approximationという付加値しか知られていなかった。
論文参考訳（メタデータ） (2022-05-16T15:47:41Z)
Optimal Admission Control for Multiclass Queues with Time-Varying Arrival Rates via State Abstraction [16.99621896314678]
我々は、意思決定者がランダムに到着したタスクを受け入れ、拒否する必要があるという、新しいキュー問題を考える。目的は、処理されたタスクの総価格が有限の地平線上で最大になるように、どのタスクを受け入れるかを決定することである。最適値関数は特定の構造を持ち、ハイブリッドMDPを正確に解くことができることを示す。
論文参考訳（メタデータ） (2022-03-14T12:38:13Z)
On Reward-Free RL with Kernel and Neural Function Approximations: Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文参考訳（メタデータ） (2021-10-19T07:26:33Z)
Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文参考訳（メタデータ） (2021-06-05T09:16:28Z)
Learning to Schedule [3.5408022972081685]
本稿では,ジョブが生み出す累積保持コストを最小限に抑えるための学習・スケジューリングアルゴリズムを提案する。各タイムスロットにおいて、サーバはシステムに残されているジョブのランダム保持コストを受信しながらジョブを処理できる。
論文参考訳（メタデータ） (2021-05-28T08:04:06Z)
Adaptive Sampling for Best Policy Identification in Markov Decision Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。最先端アルゴリズムの利点を論じ、解説する。
論文参考訳（メタデータ） (2020-09-28T15:22:24Z)
Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-03-01T17:47:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。