論文の概要: Indexability and Rollout Policy for Multi-State Partially Observable
Restless Bandits
- arxiv url: http://arxiv.org/abs/2108.00892v1
- Date: Fri, 30 Jul 2021 03:47:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-05 07:05:13.843154
- Title: Indexability and Rollout Policy for Multi-State Partially Observable
Restless Bandits
- Title(参考訳): 多状態部分観測可能なrestless banditのインデクサビリティとロールアウトポリシ
- Authors: Rahul Meshram and Kesav Kaza
- Abstract要約: 部分的に観測可能な状態を持つレストなマルチアームバンドは、通信システム、情報年齢、レコメンデーションシステムに応用されている。
意思決定者にとって観測可能な情報に基づく3つの異なるモデルを考える。
モデル2と3のしきい値型ポリシーと指数性を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Restless multi-armed bandits with partially observable states has
applications in communication systems, age of information and recommendation
systems. In this paper, we study multi-state partially observable restless
bandit models. We consider three different models based on information
observable to decision maker -- 1) no information is observable from actions of
a bandit 2) perfect information from bandit is observable only for one action
on bandit, there is a fixed restart state, i.e., transition occurs from all
other states to that state 3) perfect state information is available to
decision maker for both actions on a bandit and there are two restart state for
two actions. We develop the structural properties. We also show a threshold
type policy and indexability for model 2 and 3. We present Monte Carlo (MC)
rollout policy. We use it for whittle index computation in case of model 2. We
obtain the concentration bound on value function in terms of horizon length and
number of trajectories for MC rollout policy. We derive explicit index formula
for model 3. We finally describe Monte Carlo rollout policy for model 1 when it
is difficult to show indexability. We demonstrate the numerical examples using
myopic policy, Monte Carlo rollout policy and Whittle index policy. We observe
that Monte Carlo rollout policy is good competitive policy to myopic.
- Abstract(参考訳): 部分的に観測可能な状態のrestless multi-armed banditsは、通信システム、情報年齢、レコメンデーションシステムに応用されている。
本稿では,多状態部分観測可能なrestless banditモデルについて検討する。
我々は、意思決定者にとって観測可能な情報に基づく3つの異なるモデルを考える -- 1) バンドイットの動作から情報を見ることができない 2) バンドイットの完全な情報は、バンドイット上の1つのアクションに対してのみ観測可能であり、固定された再起動状態、すなわち、他のすべての状態からその状態へ遷移する。
構造的特性を発達させる。
また,model 2 と 3 のしきい値型ポリシーとインデクシング可能性を示す。
我々はモンテカルロ(MC)のロールアウトポリシーを提示する。
モデル2の場合、ウィットルインデックスの計算に使用します。
我々は,MCロールアウトポリシーにおける水平長および軌道数の観点から,値関数に束縛された濃度を求める。
モデル3の明示的な指数式を導出する。
最後に,モデル1のモンテカルロロールアウトポリシについて,インデクサビリティを示すことが難しい場合に説明する。
本稿では, 筋電図ポリシ, モンテカルロロールアウトポリシ, ウィトル指数ポリシを用いた数値例を示す。
モンテカルロのロールアウト政策はミオピックにとって良い競争政策である。
関連論文リスト
- Information Capacity Regret Bounds for Bandits with Mediator Feedback [55.269551124587224]
我々は,政策セットの複雑さに対する情報理論尺度として,政策セットの容量を導入する。
古典的なEXP4アルゴリズムを採用することで、ポリシーセットの容量に応じて、新たな後悔の限界を提供する。
ポリシーセットファミリの選択については、キャパシティと同じようなスケールで、ほぼ整合性の低い境界を証明します。
論文 参考訳(メタデータ) (2024-02-15T19:18:47Z) - Indexability of Finite State Restless Multi-Armed Bandit and Rollout
Policy [5.64327489637232]
有限状態定常多武装バンディット問題を考える。
レスレス・バンディットに対する古典的なアプローチは、Whittle Index Policyである。
本稿では,単一武装バンディットモデルの指標基準を検証するための代替手法を提案する。
論文 参考訳(メタデータ) (2023-04-30T06:53:44Z) - TD3 with Reverse KL Regularizer for Offline Reinforcement Learning from
Mixed Datasets [118.22975463000928]
エージェントが複数の行動ポリシーをロールアウトすることで収集したデータセットから学習する必要があるオフライン強化学習(RL)について考察する。
1) RL信号の最適化と行動クローニング(BC)信号の最適なトレードオフは、異なる行動ポリシーによって引き起こされる行動カバレッジの変化によって異なる状態に変化する。
本稿では,TD3アルゴリズムに基づくBC正規化器として,適応重み付き逆KL(Kulback-Leibler)分散を用いることにより,両課題に対処する。
論文 参考訳(メタデータ) (2022-12-05T09:36:23Z) - Sayer: Using Implicit Feedback to Optimize System Policies [63.992191765269396]
我々は、暗黙のフィードバックを活用して、新しいシステムポリシーを評価し、訓練する方法論を開発する。
Sayerは、強化学習の2つのアイデアに基づいて、既存のポリシーで収集されたデータを活用する。
Sayer氏は任意のポリシーを正確に評価し、生産ポリシーを上回るような新しいポリシーをトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-10-28T04:16:56Z) - Rule-based Shielding for Partially Observable Monte-Carlo Planning [78.05638156687343]
一部観測可能なモンテカルロ計画(POMCP)への2つの貢献を提案する。
1つ目は、POMCPが選択した予期しない行動を、タスクのエキスパートの事前知識に関して識別する方法です。
2つ目は、POMCPが予期せぬ動作を選択するのを防ぐ遮蔽アプローチである。
我々は,pomdpsの標準ベンチマークであるtigerに対するアプローチと,移動ロボットナビゲーションにおける速度規制に関する実世界問題を評価する。
論文 参考訳(メタデータ) (2021-04-28T14:23:38Z) - Monte Carlo Rollout Policy for Recommendation Systems with Dynamic User
Behavior [0.0]
モンテカルロのロールアウトポリシは、特定の構造を持たない任意の遷移ダイナミクスに対して、ミオピックポリシーよりも優れていることを示す。
しかし、遷移力学に何らかの構造が課されると、ミオピック・ポリシーはモンテカルロのロールアウト・ポリシーより優れている。
論文 参考訳(メタデータ) (2021-02-08T16:26:43Z) - A New Bandit Setting Balancing Information from State Evolution and
Corrupted Context [52.67844649650687]
本稿では,2つの確立されたオンライン学習問題と包括的フィードバックを組み合わせた,逐次的意思決定方式を提案する。
任意の瞬間にプレーする最適なアクションは、エージェントによって直接観察できない基礎となる変化状態に付随する。
本稿では,レフェリーを用いて,コンテキストブレイジットとマルチアームブレイジットのポリシーを動的に組み合わせるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-16T14:35:37Z) - Simulation Based Algorithms for Markov Decision Processes and
Multi-Action Restless Bandits [0.0]
我々は,多次元状態空間と多動作バンドイットモデルを備えたレスレスマルチアームバンドイット(RMAB)を考える。
まず、標準的なインデックス可能なRMAB(2アクションモデル)を分析し、インデックスベースのポリシーアプローチについて議論する。
モンテカルロロールアウトポリシを用いた近似インデックスアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-25T13:50:08Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z) - Sequential Monte Carlo Bandits [1.9205272414658485]
我々は、連続モンテカルロ法(SMC)を用いることで、ベイジアン多重武装バンディット(MAB)アルゴリズムを元の設定を超えて拡張する。
MABは、長期的な支払いを最大化するポリシーを学ぶことを目標とするシーケンシャルな意思決定問題である。
本稿では,線形力学系を用いて時間力学をモデル化した非定常帯域について述べる。
論文 参考訳(メタデータ) (2018-08-08T20:40:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。