Fugu-MT 論文翻訳(概要): Whittle Index for A Class of Restless Bandits with Imperfect Observations

論文の概要: Whittle Index for A Class of Restless Bandits with Imperfect Observations

arxiv url: http://arxiv.org/abs/2108.03812v1
Date: Mon, 9 Aug 2021 05:01:19 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-11 04:03:47.322165
Title: Whittle Index for A Class of Restless Bandits with Imperfect Observations
Title（参考訳）: 不完全な観察を行うレストレスバンドのWhittle Index
Authors: Keqin Liu and Ting Wu
Abstract要約: 我々は、最適化、強化学習、運用研究において幅広い応用分野を見出す、レスレスバンディット問題の一類を考察する。我々のモデルでは、独立な2ドル状態のマルコフプロセスがあり、それを観察し、報酬を得るためにアクセスすることができる。我々は,このタイプのレスレス・バンディットに対して高い性能を実現する,低複雑さのアルゴリズムを確立する。
参考スコア（独自算出の注目度）: 4.822598110892847
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We consider a class of restless bandit problems that finds a broad application area in stochastic optimization, reinforcement learning and operations research. In our model, there are $N$ independent $2$-state Markov processes that may be observed and accessed for accruing rewards. The observation is error-prone, i.e., both false alarm and miss detection may happen. Furthermore, the user can only choose a subset of $M~(M<N)$ processes to observe at each discrete time. If a process in state~$1$ is correctly observed, then it will offer some reward. Due to the partial and imperfect observation model, the system is formulated as a restless multi-armed bandit problem with an information state space of uncountable cardinality. Restless bandit problems with finite state spaces are PSPACE-HARD in general. In this paper, we establish a low-complexity algorithm that achieves a strong performance for this class of restless bandits. Under certain conditions, we theoretically prove the existence (indexability) of Whittle index and its equivalence to our algorithm. When those conditions do not hold, we show by numerical experiments the near-optimal performance of our algorithm in general.
Abstract（参考訳）: 本稿では,確率的最適化,強化学習,運用研究において幅広い応用領域を見出す,restless bandit問題の一クラスについて考察する。我々のモデルでは、独立な2ドル状態のマルコフプロセスがあり、それを観察し、報酬を得るためにアクセスすることができる。観測はエラーを起こしやすいため、誤報と誤検知の両方が起こる可能性がある。さらに、ユーザーは各離散時間に観察するために$M~(M<N)$プロセスのサブセットしか選択できない。状態~1$のプロセスが正しく観察された場合、何らかの報酬が与えられる。部分的かつ不完全な観測モデルにより、このシステムは無数濃度の情報状態空間を持つレスレスマルチアームバンディット問題として定式化される。有限状態空間のレスレスバンディット問題は一般にPSPACE-HARDである。本稿では,このタイプのrestレスバンディットに対して強力な性能を実現するための低複雑度アルゴリズムを提案する。ある条件下では、Whittle指数の存在(インデクサビリティ)とアルゴリズムに対する同値性を理論的に証明する。これらの条件が成立しない場合,数値実験によりアルゴリズムの最適に近い性能を示す。

関連論文リスト

Near-Optimal Clustering in Mixture of Markov Chains [74.3828414695655]
我々は、長さ$H$の軌跡を、大きさ$S$の有限状態空間上の未知のエルゴードマルコフ鎖の1つによって生成される、$T$ trajectories of length $H$の問題を研究する。我々は、連鎖の遷移核間の重み付きKL分散によって支配されるクラスタリングエラー率に基づいて、インスタンス依存で高い確率の低い境界を導出する。次に,新しい2段階クラスタリングアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-02T05:10:40Z)
Nearly Optimal Sample Complexity of Offline KL-Regularized Contextual Bandits under Single-Policy Concentrability [49.96531901205305]
我々は,オフラインの文脈的包帯に対する単一政治中心性の下でのサンプル複雑性を$tildeO(epsilon-1)$とするemphfirstアルゴリズムを提案する。我々の証明は、KL正則化の強い凸性と、真の報酬と悲観的推定子のギャップの条件的非負性を利用する。我々は,このアルゴリズムを文脈的デュエル帯域に拡張し,ほぼ最適なサンプル複雑性を実現する。
論文参考訳（メタデータ） (2025-02-09T22:14:45Z)
Low-Rank Bandits via Tight Two-to-Infinity Singular Subspace Recovery [45.601316850669406]
本稿では,政策評価,最良政策識別,後悔の最小化のための効率的なアルゴリズムを提案する。政策評価と最良の政策識別のために,我々のアルゴリズムは最小限に最適であることを示す。提案アルゴリズムは、まずスペクトル法を利用して、低ランク報酬行列の左特異部分空間と右特異部分空間を推定する。
論文参考訳（メタデータ） (2024-02-24T06:36:08Z)
Replicability is Asymptotically Free in Multi-armed Bandits [45.729105054410745]
この仕事の動機は、再現可能な機械学習の需要の増加にある。特に、高い確率で、アルゴリズムのアクション列がデータセットに固有のランダム性の影響を受けないように、複製可能なアルゴリズムを考える。
論文参考訳（メタデータ） (2024-02-12T03:31:34Z)
Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。 SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文参考訳（メタデータ） (2023-12-13T11:08:25Z)
PCL-Indexability and Whittle Index for Restless Bandits with General Observation Models [0.0]
我々は、任意の初期信念から始まる可算な信念状態空間を持つレスレス・バンディットとして問題を定式化する。有限状態問題に対するNino-Mora と Bertsimas の AG アルゴリズムを適用可能な問題に変換する近似法を提案する。
論文参考訳（メタデータ） (2023-07-06T14:56:13Z)
Differentially-Private Hierarchical Clustering with Provable Approximation Guarantees [79.59010418610625]
階層クラスタリングのための微分プライベート近似アルゴリズムについて検討する。例えば、$epsilon$-DPアルゴリズムは入力データセットに対して$O(|V|2/epsilon)$-additiveエラーを示さなければならない。本稿では,ブロックを正確に復元する1+o(1)$近似アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-01-31T19:14:30Z)
Private estimation algorithms for stochastic block models and mixture models [63.07482515700984]
効率的なプライベート推定アルゴリズムを設計するための一般的なツール。最初の効率的な$(epsilon, delta)$-differentially private algorithm for both weak recovery and exact recovery。
論文参考訳（メタデータ） (2023-01-11T09:12:28Z)
The Adversary Bound Revisited: From Optimal Query Algorithms to Optimal Control [0.0]
このノートは"One-Way Ticket to Las Vegas and the Quantum Adversary"という論文を補完している。私は、Barnum-Saks-Szegedyと同じ視点で、逆境界-普遍アルゴリズムの双対性を異なる形で開発する。
論文参考訳（メタデータ） (2022-11-29T15:25:45Z)
Exploration in Linear Bandits with Rich Action Sets and its Implications for Inference [23.364534479492715]
期待行列の最小固有値は、アルゴリズムの累積後悔が$sqrtn)$であるときに、$Omega(sqrtn)として増加することを示す。本研究は, 線形帯域におけるEmphmodel selectionとEmphclusteringの2つの実践シナリオに適用する。
論文参考訳（メタデータ） (2022-07-23T20:25:07Z)
Quantum Goemans-Williamson Algorithm with the Hadamard Test and Approximate Amplitude Constraints [62.72309460291971]
本稿では,n+1$ qubitsしか使用しないGoemans-Williamsonアルゴリズムの変分量子アルゴリズムを提案する。補助量子ビット上で適切にパラメータ化されたユニタリ条件として目的行列を符号化することにより、効率的な最適化を実現する。各種NPハード問題に対して,Goemans-Williamsonアルゴリズムの量子的効率的な実装を考案し,提案プロトコルの有効性を実証する。
論文参考訳（メタデータ） (2022-06-30T03:15:23Z)
Byzantine-Resilient Non-Convex Stochastic Gradient Descent [61.6382287971982]
敵対的レジリエントな分散最適化。機械は独立して勾配を計算し協力することができます私達のアルゴリズムは新しい集中の技術およびサンプル複雑性に基づいています。それは非常に実用的です:それはないときすべての前の方法の性能を改善します。セッティングマシンがあります。
論文参考訳（メタデータ） (2020-12-28T17:19:32Z)
Restless-UCB, an Efficient and Low-complexity Algorithm for Online Restless Bandits [61.490254407420906]
我々は、各腕の状態がマルコフ連鎖に従って進化するオンラインレス・バンディット問題について研究する。本研究では,探索研究の枠組みに従う学習方針であるReestless-UCBを提案する。
論文参考訳（メタデータ） (2020-11-05T05:16:04Z)
An Asymptotically Optimal Primal-Dual Incremental Algorithm for Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文参考訳（メタデータ） (2020-10-23T09:12:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。