Fugu-MT 論文翻訳(概要): Change Detection-Based Procedures for Piecewise Stationary MABs: A Modular Approach

論文の概要: Change Detection-Based Procedures for Piecewise Stationary MABs: A Modular Approach

arxiv url: http://arxiv.org/abs/2501.01291v1
Date: Thu, 02 Jan 2025 15:18:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-05 16:54:32.271852
Title: Change Detection-Based Procedures for Piecewise Stationary MABs: A Modular Approach
Title（参考訳）: 経時的定常MABに対する変化検出法 : モジュラーアプローチ
Authors: Yu-Han Huang, Argyrios Gerogiannis, Subhonmesh Bose, Venugopal V. Veeravalli,
Abstract要約: Multi-Armed Bandit (MAB) アルゴリズムは、アームに関連する報酬分布が時間とともに変化しない静止環境向けに設計されている。しかし、多くのアプリケーションでは、環境は非定常であるとより正確にモデル化されている。本研究では,腕のサブセットに付随する報酬分布が変化する部分的定常MAB(PS-MAB)環境について検討した。私たちのゴールは、CDベースのBandit(CDB)プロシージャの設計と分析をモジュール化することです。
参考スコア（独自算出の注目度）: 16.606885016888306
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Conventional Multi-Armed Bandit (MAB) algorithms are designed for stationary environments, where the reward distributions associated with the arms do not change with time. In many applications, however, the environment is more accurately modeled as being nonstationary. In this work, piecewise stationary MAB (PS-MAB) environments are investigated, in which the reward distributions associated with a subset of the arms change at some change-points and remain stationary between change-points. Our focus is on the asymptotic analysis of PS-MABs, for which practical algorithms based on change detection (CD) have been previously proposed. Our goal is to modularize the design and analysis of such CD-based Bandit (CDB) procedures. To this end, we identify the requirements for stationary bandit algorithms and change detectors in a CDB procedure that are needed for the modularization. We assume that the rewards are sub-Gaussian. Under this assumption and a condition on the separation of the change-points, we show that the analysis of CDB procedures can indeed be modularized, so that regret bounds can be obtained in a unified manner for various combinations of change detectors and bandit algorithms. Through this analysis, we develop new modular CDB procedures that are order-optimal. We compare the performance of our modular CDB procedures with various other methods in simulations.
Abstract（参考訳）: 従来のマルチアーマッドバンド (MAB) アルゴリズムは、アームに関連する報酬分布が時間とともに変化しない静止環境向けに設計されている。しかし、多くのアプリケーションでは、環境は非定常であるとより正確にモデル化されている。本研究は, アームのサブセットに付随する報酬分布が変化点によって変化し, 変化点間の静止状態が保たれる, 部分的定常MAB(PS-MAB)環境について検討した。本研究は,PS-MABの漸近解析に焦点をあてるものである。私たちのゴールは、CDベースのBandit(CDB)プロシージャの設計と分析をモジュール化することです。この目的のために,モジュール化に必要なCDB手順において,定常帯域幅アルゴリズムと変化検出器の要件を特定する。報酬はガウス以下のものであると仮定する。この仮定と変化点の分離条件により、CDB法の解析は実際にモジュール化可能であることを示し、変更検出器とバンディットアルゴリズムの様々な組み合わせに対して、後悔境界を統一的に得ることができることを示す。この分析により, 順序最適のモジュラー CDB プロシージャを新たに開発する。シミュレーションにおいて,モジュール型CDBプロシージャの性能と他の様々な手法との比較を行った。

関連論文リスト

Backscatter Device-aided Integrated Sensing and Communication: A Pareto Optimization Framework [59.30060797118097]
統合センシング・通信(ISAC)システムは、密集した都市非視線シナリオにおいて大きな性能劣化に遭遇する可能性がある。本稿では,自然環境に分散した受動的BDを利用した後方散乱近似(BD)支援ISACシステムを提案する。
論文参考訳（メタデータ） (2025-07-12T17:11:06Z)
WWAggr: A Window Wasserstein-based Aggregation for Ensemble Change Point Detection [43.30982629315816]
Change Point Detection (CPD) は、データストリームの急激な分散シフトの瞬間を特定することを目的としている。現在の最先端検出器はまだ完璧な品質を達成できていない。 WWAggr - Wasserstein 距離に基づく新しいタスク固有のアンサンブルアグリゲーション法を紹介する。
論文参考訳（メタデータ） (2025-06-09T13:52:10Z)
Detection Is All You Need: A Feasible Optimal Prior-Free Black-Box Approach For Piecewise Stationary Bandits [16.606885016888306]
基礎となる非定常性に関する事前の知識を必要とせず, 断片的な定常的包帯の問題について検討する。我々は、最も一般的なパラメトリックバンディット変種に適用可能な、最初の$textitfeasible$ black-boxアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-01-31T18:57:21Z)
Combinatorial Multivariant Multi-Armed Bandits with Applications to Episodic Reinforcement Learning and Beyond [58.39457881271146]
CMAB(Multi-armed bandits)の多変量および確率的トリガーアーム(CMAB-MT)を用いた新しい枠組みを導入する。 CMAB-MTは既存のCMABと比べ、モデリング能力を高めるだけでなく、多変量確率変数の異なる統計特性を活用することで結果を改善することができる。本フレームワークは, エピソード強化学習(RL)や商品分布の確率的最大カバレッジなど, 応用として多くの重要な問題を含むことができる。
論文参考訳（メタデータ） (2024-06-03T14:48:53Z)
Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation [49.827306773992376]
連続的テスト時間適応(CTTA)は、ソース事前学習モデルから目標分布の連続的な変化に移行するために提案される。提案手法は,CTTAタスクの分類とセグメンテーションの両方において,最先端の性能を実現する。
論文参考訳（メタデータ） (2023-12-19T15:34:52Z)
Ensemble Kalman Filtering Meets Gaussian Process SSM for Non-Mean-Field and Online Inference [47.460898983429374]
我々は,非平均場(NMF)変動推定フレームワークにアンサンブルカルマンフィルタ(EnKF)を導入し,潜在状態の後方分布を近似する。 EnKFとGPSSMのこの新しい結婚は、変分分布の学習における広範なパラメータ化の必要性をなくすだけでなく、エビデンスの下限(ELBO)の解釈可能でクローズドな近似を可能にする。得られたEnKF支援オンラインアルゴリズムは、データ適合精度を確保しつつ、モデル正規化を組み込んで過度適合を緩和し、目的関数を具現化する。
論文参考訳（メタデータ） (2023-12-10T15:22:30Z)
Machine Learning for the identification of phase-transitions in interacting agent-based systems: a Desai-Zwanzig example [0.0]
本稿では,エージェントモデルに対する位相遷移を平均フィールド限界でピンポイントするデータ駆動フレームワークを提案する。この目的のために、多様体学習アルゴリズムであるマップを用いて、データ駆動潜在変数の相似集合を同定する。次に、深層学習フレームワークを用いて、データ駆動座標の共形再パラメータ化を求める。
論文参考訳（メタデータ） (2023-10-29T15:07:08Z)
Moreau Envelope ADMM for Decentralized Weakly Convex Optimization [55.2289666758254]
本稿では,分散最適化のための乗算器の交互方向法(ADMM)の近位変種を提案する。数値実験の結果,本手法は広く用いられている手法よりも高速かつ堅牢であることが示された。
論文参考訳（メタデータ） (2023-08-31T14:16:30Z)
AdjointDPM: Adjoint Sensitivity Method for Gradient Backpropagation of Diffusion Probabilistic Models [103.41269503488546]
既存のカスタマイズ方法は、事前訓練された拡散確率モデルをユーザが提供する概念に合わせるために、複数の参照例にアクセスする必要がある。本論文は、DPMカスタマイズの課題として、生成コンテンツ上で定義された差別化可能な指標が唯一利用可能な監督基準である場合に解決することを目的とする。本稿では,拡散モデルから新しいサンプルを初めて生成するAdjointDPMを提案する。次に、随伴感度法を用いて、損失の勾配をモデルのパラメータにバックプロパゲートする。
論文参考訳（メタデータ） (2023-07-20T09:06:21Z)
Beyond Deep Ensembles: A Large-Scale Evaluation of Bayesian Deep Learning under Distribution Shift [19.945634052291542]
我々は、WILDSコレクションから現実のデータセットに対する最新のBDLアルゴリズムを評価し、難解な分類と回帰タスクを含む。我々は、大規模な、畳み込み、トランスフォーマーベースのニューラルネットワークアーキテクチャにおいて、アルゴリズムを比較した。そこで本研究では,BDLを用いた大規模事前学習モデルのシステム評価を行った。
論文参考訳（メタデータ） (2023-06-21T14:36:03Z)
An Optimal Algorithm for the Real-Valued Combinatorial Pure Exploration of Multi-Armed Bandit [65.268245109828]
多武装バンディット(R-CPE-MAB)の真価純探査問題について検討する。既存のR-CPE-MABの手法は、いわゆるトランスダクティブ線形帯域の特殊な場合と見なすことができる。本稿では,差分探索アルゴリズム (CombGapE) を提案する。
論文参考訳（メタデータ） (2023-06-15T15:37:31Z)
Distributed Consensus Algorithm for Decision-Making in Multi-agent Multi-armed Bandit [7.708904950194129]
動的環境におけるマルチエージェント・マルチアーム・バンディット(MAMAB)問題について検討する。グラフはエージェント間の情報共有構造を反映し、腕の報酬分布はいくつかの未知の変化点を持つ断片的に定常である。目的は、後悔を最小限に抑えるエージェントのための意思決定ポリシーを開発することである。
論文参考訳（メタデータ） (2023-06-09T16:10:26Z)
Piecewise-Stationary Multi-Objective Multi-Armed Bandit with Application to Joint Communications and Sensing [7.0997346625024]
本稿では,この問題を解決するために,変化検出を用いた汎用上信頼境界(UCB)に基づくアルゴリズムを提案する。また,統合通信・センシングシステムにおけるエネルギー効率のよい波形設計問題を玩具の例として定式化する。
論文参考訳（メタデータ） (2023-02-10T14:10:14Z)
Robust Pareto Set Identification with Contaminated Bandit Feedback [7.049738935364297]
マルチオブジェクト・マルチアーム・バンディット(MO-MAB)の報奨観測における問題点を考察する。本稿では, 中央値に基づく適応除去アルゴリズムを提案し, 終端に設定した(アルファ, デルタ)-PACを返却する。汚染確率が減少するにつれて、MO-MABでよく知られたサンプルの複雑さが回復する。
論文参考訳（メタデータ） (2022-06-06T15:09:09Z)
Meta-Learning Adversarial Bandits [49.094361442409785]
本研究の目的は,複数のタスクにまたがる帯域幅フィードバックを用いてオンライン学習を学習し,タスク間の平均性能を改善することである。敵対的設定を最初に対象とするメタアルゴリズムとして,マルチアーム・バンディット(MAB)とバンディット・最適化(BLO)の2つの重要なケースに対して,特定の保証を設定するメタアルゴリズムを設計する。我々の保証は、非正規化されたフォローザリーダーと乗法重みを組み合わせることで、オンラインで非滑らかで非Bシーケンスを学ぶのに十分であることを示すことに依存しています。
論文参考訳（メタデータ） (2022-05-27T17:40:32Z)
E-detectors: a nonparametric framework for sequential change detection [86.15115654324488]
逐次的変化検出のための基本的かつ汎用的なフレームワークを開発する。私たちの手順は、平均走行距離のクリーンで無症状な境界が伴います。統計的および計算効率の両方を達成するために,これらの混合物を設計する方法を示す。
論文参考訳（メタデータ） (2022-03-07T17:25:02Z)
The Schr\"odinger Bridge between Gaussian Measures has a Closed Form [101.79851806388699]
我々は OT の動的定式化(Schr"odinger bridge (SB) 問題)に焦点を当てる。本稿では,ガウス測度間のSBに対する閉形式表現について述べる。
論文参考訳（メタデータ） (2022-02-11T15:59:01Z)
Expert-Guided Symmetry Detection in Markov Decision Processes [0.0]
MDP力学が不変である状態-作用空間の変換の存在を検出することを目的としたパラダイムを提案する。その結果, 検出した対称性を用いて得られたデータを用いてデータセットを拡張した場合, モデル分布シフトが小さくなることがわかった。
論文参考訳（メタデータ） (2021-11-19T16:12:30Z)
Modularity in Reinforcement Learning via Algorithmic Independence in Credit Assignment [79.5678820246642]
提案手法は, 事前決定の順序に対して, スパース変化のみを必要とする伝達問題に対して, 政策段階の手法よりも, より標本効率が高いことを示す。我々は最近提案された社会的意思決定の枠組みをマルコフ決定プロセスよりもよりきめ細かい形式主義として一般化する。
論文参考訳（メタデータ） (2021-06-28T21:29:13Z)
Modular Deep Reinforcement Learning for Continuous Motion Planning with Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。 LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文参考訳（メタデータ） (2021-02-24T01:11:25Z)
Joint Learning of Probabilistic and Geometric Shaping for Coded Modulation Systems [12.325545487629297]
ビットワイド相互情報(BMI)の協調最適化を可能にするトレーニング可能な符号化変調方式を提案する。提案手法は対称確率分布に制限されず、任意のチャネルモデルに最適化でき、任意のコードレート$k/m$で動作する。
論文参考訳（メタデータ） (2020-04-10T14:56:32Z)
Batch Stationary Distribution Estimation [98.18201132095066]
サンプル遷移の組を与えられたエルゴードマルコフ鎖の定常分布を近似する問題を考える。与えられたデータに対する補正比関数の復元に基づく一貫した推定器を提案する。
論文参考訳（メタデータ） (2020-03-02T09:10:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。