論文の概要: Change Detection-Based Procedures for Piecewise Stationary MABs: A Modular Approach
- arxiv url: http://arxiv.org/abs/2501.01291v1
- Date: Thu, 02 Jan 2025 15:18:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:17:20.635037
- Title: Change Detection-Based Procedures for Piecewise Stationary MABs: A Modular Approach
- Title(参考訳): 経時的定常MABに対する変化検出法 : モジュラーアプローチ
- Authors: Yu-Han Huang, Argyrios Gerogiannis, Subhonmesh Bose, Venugopal V. Veeravalli,
- Abstract要約: Multi-Armed Bandit (MAB) アルゴリズムは、アームに関連する報酬分布が時間とともに変化しない静止環境向けに設計されている。
しかし、多くのアプリケーションでは、環境は非定常であるとより正確にモデル化されている。
本研究では,腕のサブセットに付随する報酬分布が変化する部分的定常MAB(PS-MAB)環境について検討した。
私たちのゴールは、CDベースのBandit(CDB)プロシージャの設計と分析をモジュール化することです。
- 参考スコア(独自算出の注目度): 16.606885016888306
- License:
- Abstract: Conventional Multi-Armed Bandit (MAB) algorithms are designed for stationary environments, where the reward distributions associated with the arms do not change with time. In many applications, however, the environment is more accurately modeled as being nonstationary. In this work, piecewise stationary MAB (PS-MAB) environments are investigated, in which the reward distributions associated with a subset of the arms change at some change-points and remain stationary between change-points. Our focus is on the asymptotic analysis of PS-MABs, for which practical algorithms based on change detection (CD) have been previously proposed. Our goal is to modularize the design and analysis of such CD-based Bandit (CDB) procedures. To this end, we identify the requirements for stationary bandit algorithms and change detectors in a CDB procedure that are needed for the modularization. We assume that the rewards are sub-Gaussian. Under this assumption and a condition on the separation of the change-points, we show that the analysis of CDB procedures can indeed be modularized, so that regret bounds can be obtained in a unified manner for various combinations of change detectors and bandit algorithms. Through this analysis, we develop new modular CDB procedures that are order-optimal. We compare the performance of our modular CDB procedures with various other methods in simulations.
- Abstract(参考訳): 従来のマルチアーマッドバンド (MAB) アルゴリズムは、アームに関連する報酬分布が時間とともに変化しない静止環境向けに設計されている。
しかし、多くのアプリケーションでは、環境は非定常であるとより正確にモデル化されている。
本研究は, アームのサブセットに付随する報酬分布が変化点によって変化し, 変化点間の静止状態が保たれる, 部分的定常MAB(PS-MAB)環境について検討した。
本研究は,PS-MABの漸近解析に焦点をあてるものである。
私たちのゴールは、CDベースのBandit(CDB)プロシージャの設計と分析をモジュール化することです。
この目的のために,モジュール化に必要なCDB手順において,定常帯域幅アルゴリズムと変化検出器の要件を特定する。
報酬はガウス以下のものであると仮定する。
この仮定と変化点の分離条件により、CDB法の解析は実際にモジュール化可能であることを示し、変更検出器とバンディットアルゴリズムの様々な組み合わせに対して、後悔境界を統一的に得ることができることを示す。
この分析により, 順序最適のモジュラー CDB プロシージャを新たに開発する。
シミュレーションにおいて,モジュール型CDBプロシージャの性能と他の様々な手法との比較を行った。
関連論文リスト
- Detection Is All You Need: A Feasible Optimal Prior-Free Black-Box Approach For Piecewise Stationary Bandits [16.606885016888306]
基礎となる非定常性に関する事前の知識を必要とせず, 断片的な定常的包帯の問題について検討する。
我々は、最も一般的なパラメトリックバンディット変種に適用可能な、最初の$textitfeasible$ black-boxアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-31T18:57:21Z) - Decoupling Training-Free Guided Diffusion by ADMM [17.425995507142467]
非条件生成モデルと誘導損失関数を明確に分離する新しいフレームワークを提案する。
そこで我々は,これらの成分を適応的にバランスをとるために,alternating Direction Method of Multipliers (ADMM) に基づく新しいアルゴリズムを開発した。
実験の結果,提案手法は高品質なサンプルを連続的に生成することがわかった。
論文 参考訳(メタデータ) (2024-11-18T23:05:54Z) - Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation [49.827306773992376]
連続的テスト時間適応(CTTA)は、ソース事前学習モデルから目標分布の連続的な変化に移行するために提案される。
提案手法は,CTTAタスクの分類とセグメンテーションの両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T15:34:52Z) - Machine Learning for the identification of phase-transitions in interacting agent-based systems: a Desai-Zwanzig example [0.0]
本稿では,エージェントモデルに対する位相遷移を平均フィールド限界でピンポイントするデータ駆動フレームワークを提案する。
この目的のために、多様体学習アルゴリズムであるマップを用いて、データ駆動潜在変数の相似集合を同定する。
次に、深層学習フレームワークを用いて、データ駆動座標の共形再パラメータ化を求める。
論文 参考訳(メタデータ) (2023-10-29T15:07:08Z) - AdjointDPM: Adjoint Sensitivity Method for Gradient Backpropagation of Diffusion Probabilistic Models [103.41269503488546]
既存のカスタマイズ方法は、事前訓練された拡散確率モデルをユーザが提供する概念に合わせるために、複数の参照例にアクセスする必要がある。
本論文は、DPMカスタマイズの課題として、生成コンテンツ上で定義された差別化可能な指標が唯一利用可能な監督基準である場合に解決することを目的とする。
本稿では,拡散モデルから新しいサンプルを初めて生成するAdjointDPMを提案する。
次に、随伴感度法を用いて、損失の勾配をモデルのパラメータにバックプロパゲートする。
論文 参考訳(メタデータ) (2023-07-20T09:06:21Z) - Distributed Consensus Algorithm for Decision-Making in Multi-agent
Multi-armed Bandit [7.708904950194129]
動的環境におけるマルチエージェント・マルチアーム・バンディット(MAMAB)問題について検討する。
グラフはエージェント間の情報共有構造を反映し、腕の報酬分布はいくつかの未知の変化点を持つ断片的に定常である。
目的は、後悔を最小限に抑えるエージェントのための意思決定ポリシーを開発することである。
論文 参考訳(メタデータ) (2023-06-09T16:10:26Z) - The Schr\"odinger Bridge between Gaussian Measures has a Closed Form [101.79851806388699]
我々は OT の動的定式化(Schr"odinger bridge (SB) 問題)に焦点を当てる。
本稿では,ガウス測度間のSBに対する閉形式表現について述べる。
論文 参考訳(メタデータ) (2022-02-11T15:59:01Z) - Expert-Guided Symmetry Detection in Markov Decision Processes [0.0]
MDP力学が不変である状態-作用空間の変換の存在を検出することを目的としたパラダイムを提案する。
その結果, 検出した対称性を用いて得られたデータを用いてデータセットを拡張した場合, モデル分布シフトが小さくなることがわかった。
論文 参考訳(メタデータ) (2021-11-19T16:12:30Z) - Modularity in Reinforcement Learning via Algorithmic Independence in
Credit Assignment [79.5678820246642]
提案手法は, 事前決定の順序に対して, スパース変化のみを必要とする伝達問題に対して, 政策段階の手法よりも, より標本効率が高いことを示す。
我々は最近提案された社会的意思決定の枠組みをマルコフ決定プロセスよりもよりきめ細かい形式主義として一般化する。
論文 参考訳(メタデータ) (2021-06-28T21:29:13Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Batch Stationary Distribution Estimation [98.18201132095066]
サンプル遷移の組を与えられたエルゴードマルコフ鎖の定常分布を近似する問題を考える。
与えられたデータに対する補正比関数の復元に基づく一貫した推定器を提案する。
論文 参考訳(メタデータ) (2020-03-02T09:10:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。