Fugu-MT 論文翻訳(概要): Optimistic Whittle Index Policy: Online Learning for Restless Bandits

論文の概要: Optimistic Whittle Index Policy: Online Learning for Restless Bandits

arxiv url: http://arxiv.org/abs/2205.15372v1
Date: Mon, 30 May 2022 18:32:20 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-02 09:52:11.567477
Title: Optimistic Whittle Index Policy: Online Learning for Restless Bandits
Title（参考訳）: Optimistic Whittle Index Policy: レストバンドのためのオンライン学習
Authors: Kai Wang, Lily Xu, Aparna Taneja, Milind Tambe
Abstract要約: 遷移力学を学習するためのWhittleインデックスポリシーに基づく,最初のオンライン学習アルゴリズムを提案する。我々のアルゴリズムUCWhittleは、RMABを未知の遷移で解くために、サブ線形$O(sqrtT log T)$の頻繁な後悔を実現する。
参考スコア（独自算出の注目度）: 31.312043984489666
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Restless multi-armed bandits (RMABs) extend multi-armed bandits to allow for stateful arms, where the state of each arm evolves restlessly with different transitions depending on whether that arm is pulled. However, solving RMABs requires information on transition dynamics, which is often not available upfront. To plan in RMAB settings with unknown transitions, we propose the first online learning algorithm based on the Whittle index policy, using an upper confidence bound (UCB) approach to learn transition dynamics. Specifically, we formulate a bilinear program to compute the optimistic Whittle index from the confidence bounds in transition dynamics. Our algorithm, UCWhittle, achieves sublinear $O(\sqrt{T \log T})$ frequentist regret to solve RMABs with unknown transitions. Empirically, we demonstrate that UCWhittle leverages the structure of RMABs and the Whittle index policy solution to achieve better performance than existing online learning baselines across three domains, including on real-world maternal and childcare data aimed at reducing maternal mortality.
Abstract（参考訳）: レストレス・マルチアーム・バンディット(RMAB)は、多腕のバンディットを拡張してステートフルアームを可能にし、各アームの状態は、腕を引っ張るかどうかによって異なる遷移で、レストレスで進化する。しかし、RMABの解決にはトランジッションダイナミクスに関する情報が必要である。未知の遷移を伴うrmab設定を計画するために, 遷移ダイナミクスを学習するためのuper confidence bound (ucb) アプローチを用いて, whittle index policyに基づく最初のオンライン学習アルゴリズムを提案する。具体的には、遷移ダイナミクスの信頼度境界から楽観的なウィットル指数を計算するために双線型プログラムを定式化する。我々のアルゴリズムUCWhittleは、RMABを未知の遷移で解くために、サブ線形$O(\sqrt{T \log T})$の頻繁な後悔を実現する。経験的に、ucwhittleは、rmabsとwhitle index policy solutionの構造を利用して、3つのドメインにまたがる既存のオンライン学習ベースラインよりも優れたパフォーマンスを達成することを実証している。

関連論文リスト

Continual Multimodal Contrastive Learning [70.60542106731813]
マルチモーダル・コントラッシブ・ラーニング(MCL)は、異なるモーダルを整列させ、関節空間で多モーダル表現を生成する。マルチモーダルデータは単一のプロセスで収集されることはめったになく、スクラッチからのトレーニングは計算コストがかかる。本稿では, 安定性と塑性の2つの原理によりCMCLを定式化する。理論的には、二辺から部分空間への勾配の更新を計画する、新しい最適化に基づく手法を導出する。
論文参考訳（メタデータ） (2025-03-19T07:57:08Z)
GINO-Q: Learning an Asymptotically Optimal Index Policy for Restless Multi-armed Bandits [16.054685587034836]
GINO-Qは、レスレスマルチアームバンディット(RMAB)の最適指標ポリシーを学習するために設計された3段階近似アルゴリズムである。 GINO-QはRMABをインデックス化する必要がなく、柔軟性と適用性を高めている。実験結果から, GINO-Q は非接種可能なRMABに対しても, ほぼ最適に学習できることが示唆された。
論文参考訳（メタデータ） (2024-08-19T10:50:45Z)
A Federated Online Restless Bandit Framework for Cooperative Resource Allocation [23.698976872351576]
MRPの未知系力学を用いた協調資源配分問題について検討する。我々は、このマルチエージェントオンラインRMAB問題を解決するために、フェデレートトンプソン対応Whittle Index(FedTSWI)アルゴリズムを作成した。数値計算の結果,提案アルゴリズムは,ベースラインと比較して,$mathcalO(sqrtTlog(T))$の高速収束率と性能の向上を実現している。
論文参考訳（メタデータ） (2024-06-12T08:34:53Z)
Decision Mamba: A Multi-Grained State Space Model with Self-Evolution Regularization for Offline RL [57.202733701029594]
決定マンバ(Decision Mamba)は、自己進化的な政策学習戦略を持つ、新しい多粒状態空間モデルである。雑音性軌道上における過度に適合する問題を緩和するために,進行正則化を用いて自己進化政策を提案する。この政策は、自身の過去の知識を用いて、準最適動作を洗練させ、ノイズの多い実演における堅牢性を高めることで進化する。
論文参考訳（メタデータ） (2024-06-08T10:12:00Z)
Combinatorial Multivariant Multi-Armed Bandits with Applications to Episodic Reinforcement Learning and Beyond [58.39457881271146]
CMAB(Multi-armed bandits)の多変量および確率的トリガーアーム(CMAB-MT)を用いた新しい枠組みを導入する。 CMAB-MTは既存のCMABと比べ、モデリング能力を高めるだけでなく、多変量確率変数の異なる統計特性を活用することで結果を改善することができる。本フレームワークは, エピソード強化学習(RL)や商品分布の確率的最大カバレッジなど, 応用として多くの重要な問題を含むことができる。
論文参考訳（メタデータ） (2024-06-03T14:48:53Z)
Meta-Learning Adversarial Bandit Algorithms [55.72892209124227]
我々は,バンディットフィードバックを用いたオンラインメタラーニングについて研究する。我々は自己協和障壁正規化器を用いてオンラインミラー降下一般化(OMD)をチューニングすることを学ぶ。
論文参考訳（メタデータ） (2023-07-05T13:52:10Z)
Meta-Learning Adversarial Bandits [49.094361442409785]
本研究の目的は,複数のタスクにまたがる帯域幅フィードバックを用いてオンライン学習を学習し,タスク間の平均性能を改善することである。敵対的設定を最初に対象とするメタアルゴリズムとして,マルチアーム・バンディット(MAB)とバンディット・最適化(BLO)の2つの重要なケースに対して,特定の保証を設定するメタアルゴリズムを設計する。我々の保証は、非正規化されたフォローザリーダーと乗法重みを組み合わせることで、オンラインで非滑らかで非Bシーケンスを学ぶのに十分であることを示すことに依存しています。
論文参考訳（メタデータ） (2022-05-27T17:40:32Z)
Scalable Decision-Focused Learning in Restless Multi-Armed Bandits with Application to Maternal and Child Health [36.442133189056136]
本稿では、未知のアーム遷移ダイナミクスを持つが、既知の相関アーム特徴を持つ、レスレスマルチアーム・バンディット(RMAB)問題について検討する。目標は、WhittleインデックスポリシーがRMAB問題を予測トランジションを用いて解決する、与えられた特徴の遷移ダイナミクスを予測するモデルを学ぶことである。そこで本研究では,Whittle指数解の品質を最大化するために,予測モデルを直接訓練するRMABにおける意思決定型学習手法を提案する。
論文参考訳（メタデータ） (2022-02-02T08:36:10Z)
Robust Restless Bandits: Tackling Interval Uncertainty with Deep Reinforcement Learning [31.515757763077065]
我々は、レスレス・マルチアーム・バンディット(RMAB)の一般化であるRobust Restless Banditsを紹介する。遷移が区間不確実性によって与えられる場合、最小限の後悔目標に対する解を開発する。 RMABPPOはRMABを解くための新しい深層強化学習アルゴリズムである。
論文参考訳（メタデータ） (2021-07-04T17:21:26Z)
Q-Learning Lagrange Policies for Multi-Action Restless Bandits [35.022322303796216]
RMAB(Multi-action restless multi-armed bandits)は、N$独立プロセスを管理する制約付きリソース割り当てのための強力なフレームワークである。我々は,ラグランジアン緩和とQラーニングを組み合わせて,Multi-action RMABをオンラインで学習するための最初のアルゴリズムを設計する。
論文参考訳（メタデータ） (2021-06-22T19:20:09Z)
Restless-UCB, an Efficient and Low-complexity Algorithm for Online Restless Bandits [61.490254407420906]
我々は、各腕の状態がマルコフ連鎖に従って進化するオンラインレス・バンディット問題について研究する。本研究では,探索研究の枠組みに従う学習方針であるReestless-UCBを提案する。
論文参考訳（メタデータ） (2020-11-05T05:16:04Z)
Robust Inverse Reinforcement Learning under Transition Dynamics Mismatch [60.23815709215807]
本研究では,逆強化学習(IRL)問題について,専門家と学習者間の遷移力学ミスマッチの下で検討する。本稿では,このミスマッチを支援するための基本手法として,ロバストなMCE IRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-07-02T14:57:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。