論文の概要: PCL-Indexability and Whittle Index for Restless Bandits with General
Observation Models
- arxiv url: http://arxiv.org/abs/2307.03034v1
- Date: Thu, 6 Jul 2023 14:56:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 13:47:25.565347
- Title: PCL-Indexability and Whittle Index for Restless Bandits with General
Observation Models
- Title(参考訳): 一般観測モデルを用いたレストレスバンディットのpcl-indexabilityとwhitle index
- Authors: Keqin Liu and Chengzhong Zhang
- Abstract要約: 我々は、任意の初期信念から始まる可算な信念状態空間を持つレスレス・バンディットとして問題を定式化する。
有限状態問題に対するNino-Mora と Bertsimas の AG アルゴリズムを適用可能な問題に変換する近似法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we consider a general observation model for restless
multi-armed bandit problems. The operation of the player needs to be based on
certain feedback mechanism that is error-prone due to resource constraints or
environmental or intrinsic noises. By establishing a general probabilistic
model for dynamics of feedback/observation, we formulate the problem as a
restless bandit with a countable belief state space starting from an arbitrary
initial belief (a priori information). We apply the achievable region method
with partial conservation law (PCL) to the infinite-state problem and analyze
its indexability and priority index (Whittle index). Finally, we propose an
approximation process to transform the problem into which the AG algorithm of
Ni\~no-Mora and Bertsimas for finite-state problems can be applied to.
Numerical experiments show that our algorithm has an excellent performance.
- Abstract(参考訳): 本稿では,restless multi-armed bandit問題に対する一般的な観測モデルについて検討する。
プレイヤーの操作は、リソースの制約や環境や内在的なノイズによってエラーが発生しやすいフィードバック機構に基づく必要がある。
フィードバック・観測のダイナミクスの一般的な確率モデルを確立することにより、任意の初期信念(事前情報)から始まる可算な信念状態空間を持つレスレス・バンドイットとして問題を定式化する。
部分保存法則(PCL)を用いた達成可能な領域法を無限状態問題に適用し,その指数性と優先度(Whittle index)を分析する。
最後に、有限状態問題に対するNi\~no-Mora と Bertsimas の AG アルゴリズムを適用可能な問題に変換する近似法を提案する。
数値実験により,このアルゴリズムは優れた性能を示す。
関連論文リスト
- Error Feedback under $(L_0,L_1)$-Smoothness: Normalization and Momentum [56.37522020675243]
機械学習の幅広い問題にまたがる正規化誤差フィードバックアルゴリズムに対する収束の最初の証明を提供する。
提案手法では,許容可能なステップサイズが大きくなったため,新しい正規化エラーフィードバックアルゴリズムは,各種タスクにおける非正規化エラーよりも優れていた。
論文 参考訳(メタデータ) (2024-10-22T10:19:27Z) - Sound Heuristic Search Value Iteration for Undiscounted POMDPs with Reachability Objectives [16.101435842520473]
本稿では,POMDPにおける最大到達可能性確率問題(indefinite-horizon)と呼ばれる問題について検討する。
割引問題に対するポイントベース手法の成功に触発され,MRPPへの拡張について検討した。
本稿では,これらの手法の強みを有効活用し,信念空間を効率的に探索するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T02:33:50Z) - Instance-Dependent Confidence and Early Stopping for Reinforcement
Learning [99.57168572237421]
強化学習(RL)のための様々なアルゴリズムは、その収束率の劇的な変動を問題構造の関数として示している。
この研究は、観察されたパフォーマンスの違いについて、textitexを説明する保証を提供する。
次の自然なステップは、これらの理論的保証を実際に有用なガイドラインに変換することです。
論文 参考訳(メタデータ) (2022-01-21T04:25:35Z) - Optimal variance-reduced stochastic approximation in Banach spaces [114.8734960258221]
可分バナッハ空間上で定義された収縮作用素の定点を推定する問題について検討する。
演算子欠陥と推定誤差の両方に対して漸近的でない境界を確立する。
論文 参考訳(メタデータ) (2022-01-21T02:46:57Z) - From Optimality to Robustness: Dirichlet Sampling Strategies in
Stochastic Bandits [0.0]
本研究では、腕の観察を再サンプリングした経験的指標のペア比較に基づいて、ジェネリックディリクレサンプリング(DS)アルゴリズムについて検討する。
この戦略の異なる変種は、分布が有界であるときに証明可能な最適後悔保証と、半有界分布に対して軽度量子状態の対数後悔を実現することを示す。
論文 参考訳(メタデータ) (2021-11-18T14:34:21Z) - Low-Complexity Algorithm for Restless Bandits with Imperfect Observations [1.4542411354617986]
我々は、強化学習と最適化において幅広い応用分野を見出す、レスレス・バンディット問題の一類を考察する。
我々は,観測誤差を伴う一般的なレスト・バンディット・モデルに容易に適用可能な,高い性能を実現する低複雑性アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-08-09T05:01:19Z) - Asymptotic Randomised Control with applications to bandits [0.0]
相関要素を持つ一般的なマルチアームバンディット問題を緩和制御問題として考察する。
エントロピー正規化を導入することにより、値関数への滑らかな近似が得られる。
これにより、最適決定過程の新たな半指数近似が得られる。
論文 参考訳(メタデータ) (2020-10-14T17:17:48Z) - Analysis and Design of Thompson Sampling for Stochastic Partial
Monitoring [91.22679787578438]
部分モニタリングのためのトンプソンサンプリングに基づく新しいアルゴリズムを提案する。
局所可観測性を持つ問題の線形化変種に対して,新たなアルゴリズムが対数問題依存の擬似回帰$mathrmO(log T)$を達成することを証明した。
論文 参考訳(メタデータ) (2020-06-17T05:48:33Z) - Solving Inverse Problems with a Flow-based Noise Model [100.18560761392692]
本研究では,従来の正規化フローを用いた画像逆問題について検討する。
我々の定式化は、この解を測定値に条件付けされた画像の最大後値推定とみなす。
提案手法の様々な逆問題に対する有効性について実験的に検証した。
論文 参考訳(メタデータ) (2020-03-18T08:33:49Z) - Active Model Estimation in Markov Decision Processes [108.46146218973189]
マルコフ決定過程(MDP)をモデル化した環境の正確なモデル学習のための効率的な探索の課題について検討する。
マルコフに基づくアルゴリズムは,本アルゴリズムと極大エントロピーアルゴリズムの両方を小サンプル方式で上回っていることを示す。
論文 参考訳(メタデータ) (2020-03-06T16:17:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。