論文の概要: Q-Learning Lagrange Policies for Multi-Action Restless Bandits
- arxiv url: http://arxiv.org/abs/2106.12024v1
- Date: Tue, 22 Jun 2021 19:20:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-24 15:32:14.287210
- Title: Q-Learning Lagrange Policies for Multi-Action Restless Bandits
- Title(参考訳): Q-Learning Lagrange Policies for Multi-Action Restless Bandits
- Authors: Jackson A. Killian, Arpita Biswas, Sanket Shah, Milind Tambe
- Abstract要約: RMAB(Multi-action restless multi-armed bandits)は、N$独立プロセスを管理する制約付きリソース割り当てのための強力なフレームワークである。
我々は,ラグランジアン緩和とQラーニングを組み合わせて,Multi-action RMABをオンラインで学習するための最初のアルゴリズムを設計する。
- 参考スコア(独自算出の注目度): 35.022322303796216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-action restless multi-armed bandits (RMABs) are a powerful framework
for constrained resource allocation in which $N$ independent processes are
managed. However, previous work only study the offline setting where problem
dynamics are known. We address this restrictive assumption, designing the first
algorithms for learning good policies for Multi-action RMABs online using
combinations of Lagrangian relaxation and Q-learning. Our first approach,
MAIQL, extends a method for Q-learning the Whittle index in binary-action RMABs
to the multi-action setting. We derive a generalized update rule and
convergence proof and establish that, under standard assumptions, MAIQL
converges to the asymptotically optimal multi-action RMAB policy as
$t\rightarrow{}\infty$. However, MAIQL relies on learning Q-functions and
indexes on two timescales which leads to slow convergence and requires problem
structure to perform well. Thus, we design a second algorithm, LPQL, which
learns the well-performing and more general Lagrange policy for multi-action
RMABs by learning to minimize the Lagrange bound through a variant of
Q-learning. To ensure fast convergence, we take an approximation strategy that
enables learning on a single timescale, then give a guarantee relating the
approximation's precision to an upper bound of LPQL's return as
$t\rightarrow{}\infty$. Finally, we show that our approaches always outperform
baselines across multiple settings, including one derived from real-world
medication adherence data.
- Abstract(参考訳): RMAB(Multi-action restless multi-armed bandits)は、N$独立プロセスを管理する制約付きリソース割り当てのための強力なフレームワークである。
しかし、従来の研究は問題ダイナミクスが知られているオフライン設定のみの研究であった。
我々は、ラグランジアン緩和とQラーニングの組み合わせを用いて、マルチアクションRMABの優れたポリシーをオンラインで学習するための最初のアルゴリズムを設計する。
私たちの最初のアプローチであるMAIQLは、バイナリアクションRMABにおけるWhittleインデックスをマルチアクション設定にQ-ラーニングする方法を拡張しています。
一般化された更新規則と収束証明を導出し、標準仮定の下では、MAIQLは漸近的に最適なマルチアクションRMABポリシーに$t\rightarrow{}\infty$として収束する。
しかし、MAIQLは2つのタイムスケールでのQ関数とインデックスの学習に依存しており、収束が遅く、よく機能するために問題構造を必要とする。
そこで我々は,マルチアクションRMABに対するより一般的なラグランジュポリシーを学習し,Q-ラーニングの変種を通してラグランジュを最小化する2番目のアルゴリズムLPQLを設計する。
高速収束を保証するため、単一時間スケールでの学習を可能にする近似戦略を採用し、その近似の精度とLPQLの戻り値の上限を$t\rightarrow{}\infty$として保証する。
最後に,我々のアプローチは,現実世界の服用データから得られたものを含め,複数の設定でベースラインを常に上回っています。
関連論文リスト
- GINO-Q: Learning an Asymptotically Optimal Index Policy for Restless Multi-armed Bandits [16.054685587034836]
GINO-Qは、レスレスマルチアームバンディット(RMAB)の最適指標ポリシーを学習するために設計された3段階近似アルゴリズムである。
GINO-QはRMABをインデックス化する必要がなく、柔軟性と適用性を高めている。
実験結果から, GINO-Q は非接種可能なRMABに対しても, ほぼ最適に学習できることが示唆された。
論文 参考訳(メタデータ) (2024-08-19T10:50:45Z) - UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - Provably Efficient Information-Directed Sampling Algorithms for Multi-Agent Reinforcement Learning [50.92957910121088]
本研究は,情報指向サンプリング(IDS)の原理に基づくマルチエージェント強化学習(MARL)のための新しいアルゴリズムの設計と解析を行う。
エピソディックな2プレーヤゼロサムMGに対して、ナッシュ平衡を学習するための3つのサンプル効率アルゴリズムを提案する。
我々は、Reg-MAIDSをマルチプレイヤー汎用MGに拡張し、ナッシュ平衡または粗相関平衡をサンプル効率良く学習できることを証明する。
論文 参考訳(メタデータ) (2024-04-30T06:48:56Z) - DQ-LoRe: Dual Queries with Low Rank Approximation Re-ranking for
In-Context Learning [66.85379279041128]
そこで本研究では,Dual Queries と Low-rank approximation Re- rank を利用して,文脈内学習のための例を自動選択するフレームワークを提案する。
DQ-LoRe は GPT-4 の自動選択において最先端の手法よりも優れ、92.5% から94.2% まで性能が向上した。
論文 参考訳(メタデータ) (2023-10-04T16:44:37Z) - Breaking the Curse of Multiagency: Provably Efficient Decentralized
Multi-Agent RL with Function Approximation [44.051717720483595]
本稿では,マルチ緊急近似の呪いを確実に解決するMARLアルゴリズムの1行について述べる。
より弱いバージョンのCCEを学習する代わりに、このアルゴリズムは一般的な関数近似の下で幅広い問題に適用される。
我々のアルゴリズムは常にMarkov CCEを出力し、最適レートは$widetildemathcalO(epsilon-2)$で$epsilon$-optimal Solutionを見つける。
論文 参考訳(メタデータ) (2023-02-13T18:59:25Z) - Addressing the issue of stochastic environments and local
decision-making in multi-objective reinforcement learning [0.0]
多目的強化学習(MORL)は、従来の強化学習(RL)に基づく比較的新しい分野である。
この論文は、価値に基づくMORL Q-learningアルゴリズムが環境の最適ポリシーを学習する頻度に影響を与える要因に焦点を当てている。
論文 参考訳(メタデータ) (2022-11-16T04:56:42Z) - Robust Restless Bandits: Tackling Interval Uncertainty with Deep
Reinforcement Learning [31.515757763077065]
我々は、レスレス・マルチアーム・バンディット(RMAB)の一般化であるRobust Restless Banditsを紹介する。
遷移が区間不確実性によって与えられる場合、最小限の後悔目標に対する解を開発する。
RMABPPOはRMABを解くための新しい深層強化学習アルゴリズムである。
論文 参考訳(メタデータ) (2021-07-04T17:21:26Z) - Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。
既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。
モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2020-11-19T22:35:31Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Theoretical Convergence of Multi-Step Model-Agnostic Meta-Learning [63.64636047748605]
一般的なマルチステップMAMLアルゴリズムに対して収束保証を提供するための新しい理論フレームワークを開発する。
特に,本研究の結果は,収束を保証するためには,内部段階のステップを逆比例して$N$の内段ステップを選択する必要があることを示唆している。
論文 参考訳(メタデータ) (2020-02-18T19:17:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。