論文の概要: Decision-Focused Learning in Restless Multi-Armed Bandits with
Application to Maternal and Child Care Domain
- arxiv url: http://arxiv.org/abs/2202.00916v1
- Date: Wed, 2 Feb 2022 08:36:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-03 20:31:16.406554
- Title: Decision-Focused Learning in Restless Multi-Armed Bandits with
Application to Maternal and Child Care Domain
- Title(参考訳): restless multi-armed banditsにおける意思決定中心の学習と母子ケア領域への応用
- Authors: Kai Wang, Shresth Verma, Aditya Mate, Sanket Shah, Aparna Taneja, Neha
Madhiwalla, Aparna Hegde, Milind Tambe
- Abstract要約: レスレス・マルチアーム・バンディット(RMAB)問題と未知のアーム遷移ダイナミクスについて検討する。
我々のアルゴリズムは、RMABにおける意思決定中心の学習において、大規模な実世界の問題にスケールする最初のものである。
- 参考スコア(独自算出の注目度): 30.698759163943286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies restless multi-armed bandit (RMAB) problems with unknown
arm transition dynamics but with known correlated arm features. The goal is to
learn a model to predict transition dynamics given features, where the Whittle
index policy solves the RMAB problems using predicted transitions. However,
prior works often learn the model by maximizing the predictive accuracy instead
of final RMAB solution quality, causing a mismatch between training and
evaluation objectives. To address this shortcoming we propose a novel approach
for decision-focused learning in RMAB that directly trains the predictive model
to maximize the Whittle index solution quality. We present three key
contributions: (i) we establish the differentiability of the Whittle index
policy to support decision-focused learning; (ii) we significantly improve the
scalability of previous decision-focused learning approaches in sequential
problems; (iii) we apply our algorithm to the service call scheduling problem
on a real-world maternal and child health domain. Our algorithm is the first
for decision-focused learning in RMAB that scales to large-scale real-world
problems. \end{abstract}
- Abstract(参考訳): 本稿では、未知のアーム遷移ダイナミクスを持つが既知のアーム特徴を持つレストレスマルチアームバンディット(rmab)問題について検討する。
目標は、WhittleインデックスポリシーがRMAB問題を予測トランジションを用いて解決する、与えられた特徴の遷移ダイナミクスを予測するモデルを学ぶことである。
しかしながら、先行研究は、最終的なRMABソリューションの品質の代わりに予測精度を最大化し、トレーニングと評価目標のミスマッチを引き起こすことでモデルを学習することが多い。
この欠点に対処するため,RMAB において,Whittle インデックスソリューションの品質を最大化するために,予測モデルを直接訓練する新たな学習手法を提案する。
主な貢献は3つあります
一 意思決定中心の学習を支援するためのウィトル指数政策の差別性を確立すること。
二) 逐次問題における意思決定中心の学習アプローチのスケーラビリティを著しく向上させる。
3)実世界の母子保健領域におけるサービスコールスケジューリング問題に対して,本アルゴリズムを適用した。
我々のアルゴリズムは、RMABにおける意思決定中心の学習において、大規模な実世界の問題にスケールする最初のものである。
\end{abstract}
関連論文リスト
- Decision-focused Graph Neural Networks for Combinatorial Optimization [62.34623670845006]
最適化問題に取り組むための新たな戦略は、従来のアルゴリズムに代わるグラフニューラルネットワーク(GNN)の採用である。
GNNや従来のアルゴリズムソルバがCOの領域で人気が高まっているにもかかわらず、それらの統合利用とエンドツーエンドフレームワークにおけるそれらの相関について限定的な研究がなされている。
我々は、GNNを利用してCO問題に補助的なサポートで対処する決定に焦点を当てたフレームワークを導入する。
論文 参考訳(メタデータ) (2024-06-05T22:52:27Z) - Stochastic Methods for AUC Optimization subject to AUC-based Fairness
Constraints [51.12047280149546]
公正な予測モデルを得るための直接的なアプローチは、公正な制約の下で予測性能を最適化することでモデルを訓練することである。
フェアネスを考慮した機械学習モデルのトレーニング問題を,AUCに基づくフェアネス制約のクラスを対象とする最適化問題として定式化する。
フェアネス測定値の異なる実世界のデータに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-12-23T22:29:08Z) - Optimistic Whittle Index Policy: Online Learning for Restless Bandits [31.312043984489666]
遷移力学を学習するためのWhittleインデックスポリシーに基づく,最初のオンライン学習アルゴリズムを提案する。
我々のアルゴリズムUCWhittleは、RMABを未知の遷移で解くために、サブ線形$O(sqrtT log T)$の頻繁な後悔を実現する。
論文 参考訳(メタデータ) (2022-05-30T18:32:20Z) - The Statistical Complexity of Interactive Decision Making [126.04974881555094]
複雑度尺度であるDecision-Estimation Coefficientは,サンプル効率のインタラクティブ学習に必要かつ十分であることが証明された。
統合アルゴリズム設計原則であるE2Dは、教師付き推定のための任意のアルゴリズムを、意思決定のためのオンラインアルゴリズムに変換する。
論文 参考訳(メタデータ) (2021-12-27T02:53:44Z) - Robust Restless Bandits: Tackling Interval Uncertainty with Deep
Reinforcement Learning [31.515757763077065]
我々は、レスレス・マルチアーム・バンディット(RMAB)の一般化であるRobust Restless Banditsを紹介する。
遷移が区間不確実性によって与えられる場合、最小限の後悔目標に対する解を開発する。
RMABPPOはRMABを解くための新しい深層強化学習アルゴリズムである。
論文 参考訳(メタデータ) (2021-07-04T17:21:26Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - Robust Inverse Reinforcement Learning under Transition Dynamics Mismatch [60.23815709215807]
本研究では,逆強化学習(IRL)問題について,専門家と学習者間の遷移力学ミスマッチの下で検討する。
本稿では,このミスマッチを支援するための基本手法として,ロバストなMCE IRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-02T14:57:13Z) - Model-based Multi-Agent Reinforcement Learning with Cooperative
Prioritized Sweeping [4.5497948012757865]
本稿では,新しいモデルに基づく強化学習アルゴリズム,Cooperative Prioritized Sweepingを提案する。
このアルゴリズムは、値関数を近似するために因子化を利用することにより、大きな問題に対するサンプル効率の学習を可能にする。
我々の手法は、よく知られたSysAdminベンチマークとランダム化環境の両方において、最先端の協調的なQ-ラーニングアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2020-01-15T19:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。