論文の概要: Change Detection-Based Procedures for Piecewise Stationary MABs: A Modular Approach
- arxiv url: http://arxiv.org/abs/2501.01291v1
- Date: Thu, 02 Jan 2025 15:18:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 16:54:32.271852
- Title: Change Detection-Based Procedures for Piecewise Stationary MABs: A Modular Approach
- Title(参考訳): 経時的定常MABに対する変化検出法 : モジュラーアプローチ
- Authors: Yu-Han Huang, Argyrios Gerogiannis, Subhonmesh Bose, Venugopal V. Veeravalli,
- Abstract要約: Multi-Armed Bandit (MAB) アルゴリズムは、アームに関連する報酬分布が時間とともに変化しない静止環境向けに設計されている。
しかし、多くのアプリケーションでは、環境は非定常であるとより正確にモデル化されている。
本研究では,腕のサブセットに付随する報酬分布が変化する部分的定常MAB(PS-MAB)環境について検討した。
私たちのゴールは、CDベースのBandit(CDB)プロシージャの設計と分析をモジュール化することです。
- 参考スコア(独自算出の注目度): 16.606885016888306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventional Multi-Armed Bandit (MAB) algorithms are designed for stationary environments, where the reward distributions associated with the arms do not change with time. In many applications, however, the environment is more accurately modeled as being nonstationary. In this work, piecewise stationary MAB (PS-MAB) environments are investigated, in which the reward distributions associated with a subset of the arms change at some change-points and remain stationary between change-points. Our focus is on the asymptotic analysis of PS-MABs, for which practical algorithms based on change detection (CD) have been previously proposed. Our goal is to modularize the design and analysis of such CD-based Bandit (CDB) procedures. To this end, we identify the requirements for stationary bandit algorithms and change detectors in a CDB procedure that are needed for the modularization. We assume that the rewards are sub-Gaussian. Under this assumption and a condition on the separation of the change-points, we show that the analysis of CDB procedures can indeed be modularized, so that regret bounds can be obtained in a unified manner for various combinations of change detectors and bandit algorithms. Through this analysis, we develop new modular CDB procedures that are order-optimal. We compare the performance of our modular CDB procedures with various other methods in simulations.
- Abstract(参考訳): 従来のマルチアーマッドバンド (MAB) アルゴリズムは、アームに関連する報酬分布が時間とともに変化しない静止環境向けに設計されている。
しかし、多くのアプリケーションでは、環境は非定常であるとより正確にモデル化されている。
本研究は, アームのサブセットに付随する報酬分布が変化点によって変化し, 変化点間の静止状態が保たれる, 部分的定常MAB(PS-MAB)環境について検討した。
本研究は,PS-MABの漸近解析に焦点をあてるものである。
私たちのゴールは、CDベースのBandit(CDB)プロシージャの設計と分析をモジュール化することです。
この目的のために,モジュール化に必要なCDB手順において,定常帯域幅アルゴリズムと変化検出器の要件を特定する。
報酬はガウス以下のものであると仮定する。
この仮定と変化点の分離条件により、CDB法の解析は実際にモジュール化可能であることを示し、変更検出器とバンディットアルゴリズムの様々な組み合わせに対して、後悔境界を統一的に得ることができることを示す。
この分析により, 順序最適のモジュラー CDB プロシージャを新たに開発する。
シミュレーションにおいて,モジュール型CDBプロシージャの性能と他の様々な手法との比較を行った。
関連論文リスト
- Detection Is All You Need: A Feasible Optimal Prior-Free Black-Box Approach For Piecewise Stationary Bandits [16.606885016888306]
基礎となる非定常性に関する事前の知識を必要とせず, 断片的な定常的包帯の問題について検討する。
我々は、最も一般的なパラメトリックバンディット変種に適用可能な、最初の$textitfeasible$ black-boxアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-31T18:57:21Z) - Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation [49.827306773992376]
連続的テスト時間適応(CTTA)は、ソース事前学習モデルから目標分布の連続的な変化に移行するために提案される。
提案手法は,CTTAタスクの分類とセグメンテーションの両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T15:34:52Z) - Ensemble Kalman Filtering Meets Gaussian Process SSM for Non-Mean-Field and Online Inference [47.460898983429374]
我々は,非平均場(NMF)変動推定フレームワークにアンサンブルカルマンフィルタ(EnKF)を導入し,潜在状態の後方分布を近似する。
EnKFとGPSSMのこの新しい結婚は、変分分布の学習における広範なパラメータ化の必要性をなくすだけでなく、エビデンスの下限(ELBO)の解釈可能でクローズドな近似を可能にする。
得られたEnKF支援オンラインアルゴリズムは、データ適合精度を確保しつつ、モデル正規化を組み込んで過度適合を緩和し、目的関数を具現化する。
論文 参考訳(メタデータ) (2023-12-10T15:22:30Z) - Machine Learning for the identification of phase-transitions in interacting agent-based systems: a Desai-Zwanzig example [0.0]
本稿では,エージェントモデルに対する位相遷移を平均フィールド限界でピンポイントするデータ駆動フレームワークを提案する。
この目的のために、多様体学習アルゴリズムであるマップを用いて、データ駆動潜在変数の相似集合を同定する。
次に、深層学習フレームワークを用いて、データ駆動座標の共形再パラメータ化を求める。
論文 参考訳(メタデータ) (2023-10-29T15:07:08Z) - An Optimal Algorithm for the Real-Valued Combinatorial Pure Exploration
of Multi-Armed Bandit [65.268245109828]
多武装バンディット(R-CPE-MAB)の真価純探査問題について検討する。
既存のR-CPE-MABの手法は、いわゆるトランスダクティブ線形帯域の特殊な場合と見なすことができる。
本稿では,差分探索アルゴリズム (CombGapE) を提案する。
論文 参考訳(メタデータ) (2023-06-15T15:37:31Z) - Distributed Consensus Algorithm for Decision-Making in Multi-agent
Multi-armed Bandit [7.708904950194129]
動的環境におけるマルチエージェント・マルチアーム・バンディット(MAMAB)問題について検討する。
グラフはエージェント間の情報共有構造を反映し、腕の報酬分布はいくつかの未知の変化点を持つ断片的に定常である。
目的は、後悔を最小限に抑えるエージェントのための意思決定ポリシーを開発することである。
論文 参考訳(メタデータ) (2023-06-09T16:10:26Z) - Piecewise-Stationary Multi-Objective Multi-Armed Bandit with Application
to Joint Communications and Sensing [7.0997346625024]
本稿では,この問題を解決するために,変化検出を用いた汎用上信頼境界(UCB)に基づくアルゴリズムを提案する。
また,統合通信・センシングシステムにおけるエネルギー効率のよい波形設計問題を玩具の例として定式化する。
論文 参考訳(メタデータ) (2023-02-10T14:10:14Z) - Robust Pareto Set Identification with Contaminated Bandit Feedback [7.049738935364297]
マルチオブジェクト・マルチアーム・バンディット(MO-MAB)の報奨観測における問題点を考察する。
本稿では, 中央値に基づく適応除去アルゴリズムを提案し, 終端に設定した(アルファ, デルタ)-PACを返却する。
汚染確率が減少するにつれて、MO-MABでよく知られたサンプルの複雑さが回復する。
論文 参考訳(メタデータ) (2022-06-06T15:09:09Z) - Meta-Learning Adversarial Bandits [49.094361442409785]
本研究の目的は,複数のタスクにまたがる帯域幅フィードバックを用いてオンライン学習を学習し,タスク間の平均性能を改善することである。
敵対的設定を最初に対象とするメタアルゴリズムとして,マルチアーム・バンディット(MAB)とバンディット・最適化(BLO)の2つの重要なケースに対して,特定の保証を設定するメタアルゴリズムを設計する。
我々の保証は、非正規化されたフォローザリーダーと乗法重みを組み合わせることで、オンラインで非滑らかで非Bシーケンスを学ぶのに十分であることを示すことに依存しています。
論文 参考訳(メタデータ) (2022-05-27T17:40:32Z) - The Schr\"odinger Bridge between Gaussian Measures has a Closed Form [101.79851806388699]
我々は OT の動的定式化(Schr"odinger bridge (SB) 問題)に焦点を当てる。
本稿では,ガウス測度間のSBに対する閉形式表現について述べる。
論文 参考訳(メタデータ) (2022-02-11T15:59:01Z) - Expert-Guided Symmetry Detection in Markov Decision Processes [0.0]
MDP力学が不変である状態-作用空間の変換の存在を検出することを目的としたパラダイムを提案する。
その結果, 検出した対称性を用いて得られたデータを用いてデータセットを拡張した場合, モデル分布シフトが小さくなることがわかった。
論文 参考訳(メタデータ) (2021-11-19T16:12:30Z) - Modularity in Reinforcement Learning via Algorithmic Independence in
Credit Assignment [79.5678820246642]
提案手法は, 事前決定の順序に対して, スパース変化のみを必要とする伝達問題に対して, 政策段階の手法よりも, より標本効率が高いことを示す。
我々は最近提案された社会的意思決定の枠組みをマルコフ決定プロセスよりもよりきめ細かい形式主義として一般化する。
論文 参考訳(メタデータ) (2021-06-28T21:29:13Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Batch Stationary Distribution Estimation [98.18201132095066]
サンプル遷移の組を与えられたエルゴードマルコフ鎖の定常分布を近似する問題を考える。
与えられたデータに対する補正比関数の復元に基づく一貫した推定器を提案する。
論文 参考訳(メタデータ) (2020-03-02T09:10:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。