論文の概要: Restless Multi-armed Bandits under Frequency and Window Constraints for Public Service Inspections
- arxiv url: http://arxiv.org/abs/2502.00045v1
- Date: Mon, 27 Jan 2025 19:08:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-09 04:50:39.680916
- Title: Restless Multi-armed Bandits under Frequency and Window Constraints for Public Service Inspections
- Title(参考訳): 公共サービス検査における周波数・ウィンドウ制約下におけるレストレスマルチアームバンド
- Authors: Yi Mao, Andrew Perrault,
- Abstract要約: シカゴ公衆衛生省は毎年数千の施設を検査しており、かなりの失敗率である。
ガイドラインの遵守を確実にする目的のバランスをとるため、CDPHは毎年各施設に検査窓を割り当て、その窓の中で正確に1回検査されることを保証する。
我々は,動作窓の制約や周波数を保証できるRMABのためのWhittleインデックスベースシステムの拡張を開発する。
- 参考スコア(独自算出の注目度): 18.525139087499863
- License:
- Abstract: Municipal inspections are an important part of maintaining the quality of goods and services. In this paper, we approach the problem of intelligently scheduling service inspections to maximize their impact, using the case of food establishment inspections in Chicago as a case study. The Chicago Department of Public Health (CDPH) inspects thousands of establishments each year, with a substantial fail rate (over 3,000 failed inspection reports in 2023). To balance the objectives of ensuring adherence to guidelines, minimizing disruption to establishments, and minimizing inspection costs, CDPH assigns each establishment an inspection window every year and guarantees that they will be inspected exactly once during that window. These constraints create a challenge for a restless multi-armed bandit (RMAB) approach, for which there are no existing methods. We develop an extension to Whittle index-based systems for RMABs that can guarantee action window constraints and frequencies, and furthermore can be leveraged to optimize action window assignments themselves. Briefly, we combine MDP reformulation and integer programming-based lookahead to maximize the impact of inspections subject to constraints. A neural network-based supervised learning model is developed to model state transitions of real Chicago establishments using public CDPH inspection records, which demonstrates 10\% AUC improvements compared with directly predicting establishments' failures. Our experiments not only show up to 24\% (in simulation) or 33\% (on real data) reward improvements resulting from our approach but also give insight into the impact of scheduling constraints.
- Abstract(参考訳): 市町村の検査は、商品やサービスの質を維持する上で重要な部分である。
本稿では,シカゴの食品施設検査を事例として,サービス検査をインテリジェントにスケジューリングし,その影響を最大化する問題にアプローチする。
シカゴ公衆衛生省(CDPH)は毎年数千の施設を検査しており、かなりの失敗率(2023年に3000件以上の検査報告が失敗した)がある。
ガイドラインの遵守の確保、施設の混乱の最小化、検査コストの最小化を図るため、CDPHは、毎年各施設に検査窓を割り当て、その窓の中で正確に1回検査されることを保証している。
これらの制約は、既存の方法が存在しない、レスレスマルチアーム・バンディット(RMAB)アプローチの課題を生み出します。
RMABのWhittleインデックスベースシステムの拡張により、動作ウィンドウの制約や周波数を保証し、さらにアクションウィンドウの割り当て自体を最適化することができる。
簡単に言えば、MDPの再構成と整数プログラミングに基づくルックアヘッドを組み合わせることで、制約を受ける検査の影響を最大化する。
ニューラルネットワークに基づく教師あり学習モデルは、公共CDPH検査記録を用いてシカゴの実際の施設の状態遷移をモデル化するために開発された。
シミュレーションでは24 %(実データでは)または33 %(実データでは)の報酬改善を示すだけでなく、スケジューリング制約の影響についての洞察も提供する。
関連論文リスト
- Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection [56.66677293607114]
オープンセットのリアクティブかつアクティブな障害検出のためのCode-as-Monitor(CaM)を提案する。
モニタリングの精度と効率を高めるために,制約関連エンティティを抽象化する制約要素を導入する。
実験により、CaMは28.7%高い成功率を達成し、厳しい乱れの下で実行時間を31.8%短縮することが示された。
論文 参考訳(メタデータ) (2024-12-05T18:58:27Z) - Control-Flow Attestation: Concepts, Solutions, and Open Challenges [3.0248879829045396]
本稿では,制御フローの検証に関する最初の調査を行い,最先端のスキームにおける中核的な考え方と解決策について考察する。
この問題は、クラウドプラットフォーム、サイバー物理システム、IoTデバイスの信頼性評価など、さまざまな設定で検討されている。
2016~2024年の間に発行された30以上の論文を調査し、主要な特徴の統合と比較を行い、この分野における今後の研究にいくつかの課題とレコメンデーションを提起する。
論文 参考訳(メタデータ) (2024-08-12T17:17:16Z) - Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Collision Avoidance Verification of Multiagent Systems with Learned Policies [9.550601011551024]
本稿では,マルチエージェントフィードバックループ(MA-NFL)の衝突回避特性を検証するための後方到達性に基づくアプローチを提案する。
私たちは多くの不確実性を説明しており、現実のシナリオとよく一致しています。
提案アルゴリズムは,MA-NFLの衝突回避アルゴリズムを模倣するエージェントを用いて,衝突回避特性を検証できることを示す。
論文 参考訳(メタデータ) (2024-03-05T20:36:26Z) - Efficient Reinforcement Learning with Impaired Observability: Learning
to Act with Delayed and Missing State Observations [92.25604137490168]
本稿では,制御系における効率的な強化学習に関する理論的研究を紹介する。
遅延および欠落した観測条件において,RL に対して $tildemathcalO(sqrtrm poly(H) SAK)$ という形でアルゴリズムを提示し,その上限と下限をほぼ最適に設定する。
論文 参考訳(メタデータ) (2023-06-02T02:46:39Z) - Can Agents Run Relay Race with Strangers? Generalization of RL to
Out-of-Distribution Trajectories [88.08381083207449]
異種エージェントの制御可能な状態に対する一般化失敗の有病率を示す。
本稿では,学習中のQ関数に従って環境をエージェントの旧状態にリセットする,STA(Self-Trajectory Augmentation)という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-26T10:12:12Z) - Applying Machine Learning for Duplicate Detection, Throttling and
Prioritization of Equipment Commissioning Audits at Fulfillment Network [1.933681537640272]
VQ(Vendor Qualification)とIOQ(Installation and Operation Qualification)監査は倉庫で実施され、すべての機器が品質基準を満たしている。
この作業では、自然言語処理と機械学習を使用して、倉庫のネットワーク用の大規模なチェックリストデータセットをトリムする。
論文 参考訳(メタデータ) (2022-09-28T20:40:32Z) - Is Bang-Bang Control All You Need? Solving Continuous Control with
Bernoulli Policies [45.20170713261535]
我々は、訓練されたエージェントが、その空間の境界におけるアクションをしばしば好む現象を調査する。
通常のガウス分布を、各作用次元に沿った極性のみを考えるベルヌーイ分布に置き換える。
驚くべきことに、これはいくつかの継続的制御ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-11-03T22:45:55Z) - Privacy Preserving Recalibration under Domain Shift [119.21243107946555]
本稿では,差分プライバシー制約下での校正問題の性質を抽象化する枠組みを提案する。
また、新しいリカレーションアルゴリズム、精度温度スケーリングを設計し、プライベートデータセットの事前処理より優れています。
論文 参考訳(メタデータ) (2020-08-21T18:43:37Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。