論文の概要: Is Prior-Free Black-Box Non-Stationary Reinforcement Learning Feasible?
- arxiv url: http://arxiv.org/abs/2410.13772v2
- Date: Mon, 21 Oct 2024 01:05:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:17:46.343485
- Title: Is Prior-Free Black-Box Non-Stationary Reinforcement Learning Feasible?
- Title(参考訳): 事前自由なブラックボックス非定常強化学習は可能か?
- Authors: Argyrios Gerogiannis, Yu-Han Huang, Venugopal V. Veeravalli,
- Abstract要約: 本研究では,非定常強化学習(NS-RL)の問題点を,システムの非定常性に関する事前知識なしで研究する。
MASTERとして知られる最先端のブラックボックスアルゴリズムは、その目標を達成するための条件を特定することに焦点を当てている。
- 参考スコア(独自算出の注目度): 17.220126722355626
- License:
- Abstract: We study the problem of Non-Stationary Reinforcement Learning (NS-RL) without prior knowledge about the system's non-stationarity. A state-of-the-art, black-box algorithm, known as MASTER, is considered, with a focus on identifying the conditions under which it can achieve its stated goals. Specifically, we prove that MASTER's non-stationarity detection mechanism is not triggered for practical choices of horizon, leading to performance akin to a random restarting algorithm. Moreover, we show that the regret bound for MASTER, while being order optimal, stays above the worst-case linear regret until unreasonably large values of the horizon. To validate these observations, MASTER is tested for the special case of piecewise stationary multi-armed bandits, along with methods that employ random restarting, and others that use quickest change detection to restart. A simple, order optimal random restarting algorithm, that has prior knowledge of the non-stationarity is proposed as a baseline. The behavior of the MASTER algorithm is validated in simulations, and it is shown that methods employing quickest change detection are more robust and consistently outperform MASTER and other random restarting approaches.
- Abstract(参考訳): 本研究では,非定常強化学習(NS-RL)の問題点を,システムの非定常性に関する事前知識なしで研究する。
MASTERとして知られる最先端のブラックボックスアルゴリズムは、その目標を達成するための条件を特定することに焦点を当てている。
具体的には,MASTERの非定常検出機構が水平方向の実用的選択のためにトリガされていないことを証明し,ランダム再起動アルゴリズムに類似した性能を示す。
さらに,MASTERを最適に保った後悔は,地平線の不当に大きな値に達するまで,最悪の線形後悔よりも上であることを示す。
これらの観測を検証するために、MASTERは、ランダム再起動を用いる方法や、最も速い変更検出を用いて再起動する手法とともに、断片的に静止した複数武装の包帯の特殊なケースで試験される。
非定常性に関する事前知識を持つ単純な順序の最適ランダム再起動アルゴリズムがベースラインとして提案されている。
MASTERアルゴリズムの動作はシミュレーションで検証され、最も高速な変化検出手法の方がより堅牢で、MASTERや他のランダム再起動手法より一貫して優れていることが示されている。
関連論文リスト
- Near-Optimal Algorithm for Non-Stationary Kernelized Bandits [6.379833644595456]
時変ベイズ最適化(英語版)とも呼ばれる非定常カーネル化バンドイット問題(KB)について検討する。
我々は,2乗指数およびマタン核を持つ非定常KBに対して,アルゴリズムに依存しない最初のリフレッシュローバウンドを示す。
本稿では,ランダムな置換による位相除去を再開する手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T14:28:26Z) - Time-Varying Gaussian Process Bandits with Unknown Prior [18.93478528448966]
PE-GP-UCBは時変ベイズ最適化問題を解くことができる。
これは、観測された関数の値が以前のいくつかの値と一致しているという事実に依存している。
論文 参考訳(メタデータ) (2024-02-02T18:52:16Z) - An Optimization-based Algorithm for Non-stationary Kernel Bandits
without Prior Knowledge [23.890686553141798]
本研究では,非定常性の度合いの事前知識を必要としない非定常カーネル帯域幅のアルゴリズムを提案する。
我々のアルゴリズムは、非定常カーネル帯域設定に関する以前の研究よりも、より厳密な動的後悔を享受する。
論文 参考訳(メタデータ) (2022-05-29T21:32:53Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - Optimal Sequential Detection of Signals with Unknown Appearance and
Disappearance Points in Time [64.26593350748401]
本論文は、変化の期間が有限で未知であると仮定して、逐次的な変化点検出問題に対処する。
我々は、所定の時間(または空間)ウィンドウにおける最小検出確率を最大化する信頼性の高い最大変更検出基準に焦点を当てる。
FMAアルゴリズムは、光学画像中の衛星のかすかなストリークを検出するために応用される。
論文 参考訳(メタデータ) (2021-02-02T04:58:57Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Optimal Best-arm Identification in Linear Bandits [79.3239137440876]
サンプルの複雑さが既知のインスタンス固有の下界と一致する単純なアルゴリズムを考案する。
既存のベストアーム識別戦略とは異なり、我々のアルゴリズムは武器の数に依存しない停止規則を用いる。
論文 参考訳(メタデータ) (2020-06-29T14:25:51Z) - Excursion Search for Constrained Bayesian Optimization under a Limited
Budget of Failures [62.41541049302712]
本稿では,所定の予算の失敗の関数として探索において許容されるリスクの量を制御する制御理論に基づく新しい意思決定者を提案する。
本アルゴリズムは, 種々の最適化実験において, 故障予算をより効率的に利用し, 一般に, 最先端の手法よりも, 後悔度を低くする。
論文 参考訳(メタデータ) (2020-05-15T09:54:09Z) - Corruption-Tolerant Gaussian Process Bandit Optimization [130.60115798580136]
未知(典型的には非生成)関数を有界ノルムで最適化する問題を考察する。
我々は「高速だが非ローバスト」と「スロー」に基づく高速スローGP-UCBに基づくアルゴリズムを提案する。
ある種の依存関係は、汚職レベルによっては要求できない、と我々は主張する。
論文 参考訳(メタデータ) (2020-03-04T09:46:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。