論文の概要: Bandit Change-Point Detection for Real-Time Monitoring High-Dimensional
Data Under Sampling Control
- arxiv url: http://arxiv.org/abs/2009.11891v2
- Date: Sun, 10 Apr 2022 04:45:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 05:07:54.594669
- Title: Bandit Change-Point Detection for Real-Time Monitoring High-Dimensional
Data Under Sampling Control
- Title(参考訳): サンプリング制御によるリアルタイム高次元データの帯域変更点検出
- Authors: Wanrong Zhang, Yajun Mei
- Abstract要約: 本稿では,マルチアームバンディット手法を逐次変化点検出に適用し,効率的なバンディット変化点検出アルゴリズムを提案する。
適応サンプリング法はトンプソンサンプリング法を即時報酬獲得のための探索と搾取のバランスに応用し,統計的決定法は局所シリャーエフ・ロバーツ・ポラック統計を融合させ,総和縮小法によりグローバルアラームを上昇させるか否かを決定する。
- 参考スコア(独自算出の注目度): 13.249453757295083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many real-world problems of real-time monitoring high-dimensional
streaming data, one wants to detect an undesired event or change quickly once
it occurs, but under the sampling control constraint in the sense that one
might be able to only observe or use selected components data for
decision-making per time step in the resource-constrained environments. In this
paper, we propose to incorporate multi-armed bandit approaches into sequential
change-point detection to develop an efficient bandit change-point detection
algorithm based on the limiting Bayesian approach to incorporate a prior
knowledge of potential changes. Our proposed algorithm, termed
Thompson-Sampling-Shiryaev-Roberts-Pollak (TSSRP), consists of two policies per
time step: the adaptive sampling policy applies the Thompson Sampling algorithm
to balance between exploration for acquiring long-term knowledge and
exploitation for immediate reward gain, and the statistical decision policy
fuses the local Shiryaev-Roberts-Pollak statistics to determine whether to
raise a global alarm by sum shrinkage techniques. Extensive numerical
simulations and case studies demonstrate the statistical and computational
efficiency of our proposed TSSRP algorithm.
- Abstract(参考訳): 高次元のストリーミングデータをリアルタイムに監視する多くの現実的な問題では、望ましくないイベントを素早く検出したり、変更したりしたいが、サンプリング制御の制約の下では、リソース制約のある環境において、選択されたコンポーネントデータのみを観察または使用して、意思決定を行うことができる。
本稿では,複数腕のバンディット法を逐次的変化点検出に取り入れ,限界ベイズ法に基づく効率的なバンディット変化点検出アルゴリズムを開発し,ポテンシャル変化の事前知識を取り入れる。
適応サンプリング法は,長期知識獲得のための探索と即時報酬獲得のための活用のバランスをとるためにトンプソンサンプリング法を適用し,統計的決定法は局所シリャーエフ・ロバーツ・ポラック統計を融合させ,総和収縮法により大域アラームを上昇させるか否かを決定する。
大規模数値シミュレーションとケーススタディは,提案したTSSRPアルゴリズムの統計的および計算効率を実証する。
関連論文リスト
- Partially-Observable Sequential Change-Point Detection for Autocorrelated Data via Upper Confidence Region [12.645304808491309]
逐次変化点検出のための状態空間モデル(AUCRSS)を用いたアダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・
SSMのオンライン推論のために部分的に観測可能なカルマンフィルタアルゴリズムを開発し、一般化された確率比テストに基づく変化点検出スキームを解析する。
論文 参考訳(メタデータ) (2024-03-30T02:32:53Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Adaptive Resources Allocation CUSUM for Binomial Count Data Monitoring
with Application to COVID-19 Hotspot Detection [11.954681424276528]
サンプリング資源が限られているホットスポットを頑健かつ効率的に検出する効率的な統計手法を提案する。
本研究の主な目的は、マルチアーム・バンディット(MAB)と変更点検出法を組み合わせることである。
本手法はワシントン州ハワイ州における郡レベルでの1日当たりの新型コロナウイルス感染者の実態調査においてホットスポット検出に応用された。
論文 参考訳(メタデータ) (2022-08-09T21:26:28Z) - Shortest-Path Constrained Reinforcement Learning for Sparse Reward Tasks [59.419152768018506]
最適ポリシーは必ずk-SP制約を満たすことを示す。
本研究では,SP制約に違反するポリシーを完全に排除する代わりに,新たなコスト関数を提案する。
また,MiniGrid,DeepMind Lab,Atari,Fetchを用いた実験の結果,提案手法はPPOを著しく改善することが示された。
論文 参考訳(メタデータ) (2021-07-13T21:39:21Z) - Minimum-Delay Adaptation in Non-Stationary Reinforcement Learning via
Online High-Confidence Change-Point Detection [7.685002911021767]
非定常環境におけるポリシーを効率的に学習するアルゴリズムを導入する。
これは、リアルタイム、高信頼な変更点検出統計において、潜在的に無限のデータストリームと計算を解析する。
i) このアルゴリズムは, 予期せぬ状況変化が検出されるまでの遅延を最小限に抑え, 迅速な応答を可能にする。
論文 参考訳(メタデータ) (2021-05-20T01:57:52Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Learning with Safety Constraints: Sample Complexity of Reinforcement
Learning for Constrained MDPs [13.922754427601491]
我々は,安全性の制約と,所望の精度を確保するために必要なサンプル数との関係を特徴付ける。
我々の主な発見は、制約のない状態の最もよく知られた境界と比較して、制約されたRLアルゴリズムのサンプルは制約の数に対数的な因子によって増加することである。
論文 参考訳(メタデータ) (2020-08-01T18:17:08Z) - Faster Activity and Data Detection in Massive Random Access: A
Multi-armed Bandit Approach [30.292176932361528]
本稿では,大規模なIoTデバイスによる無許可ランダムアクセスについて検討する。
データシンボルをシグネチャシーケンスに埋め込むことで、ジョイントデバイスアクティビティ検出とデータ復号を実現することができる。
論文 参考訳(メタデータ) (2020-01-28T10:00:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。