論文の概要: A Definition of Non-Stationary Bandits
- arxiv url: http://arxiv.org/abs/2302.12202v2
- Date: Fri, 28 Jul 2023 07:50:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-31 16:10:10.607945
- Title: A Definition of Non-Stationary Bandits
- Title(参考訳): 非定常帯域の定義
- Authors: Yueyang Liu, Xu Kuang, Benjamin Van Roy
- Abstract要約: 非定常帯域を定常帯域と一貫した区別が可能な非定常帯域の形式的定義を同定する。
この定義は定常的・非定常的の両方と同じ帯域幅を明確に分類できることを示す。
これらの問題を解消する非定常的包帯の形式的定義を導入する。
- 参考スコア(独自算出の注目度): 12.643821787548154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the subject of non-stationary bandit learning having attracted much
recent attention, we have yet to identify a formal definition of
non-stationarity that can consistently distinguish non-stationary bandits from
stationary ones. Prior work has characterized non-stationary bandits as bandits
for which the reward distribution changes over time. We demonstrate that this
definition can ambiguously classify the same bandit as both stationary and
non-stationary; this ambiguity arises in the existing definition's dependence
on the latent sequence of reward distributions. Moreover, the definition has
given rise to two widely used notions of regret: the dynamic regret and the
weak regret. These notions are not indicative of qualitative agent performance
in some bandits. Additionally, this definition of non-stationary bandits has
led to the design of agents that explore excessively. We introduce a formal
definition of non-stationary bandits that resolves these issues. Our new
definition provides a unified approach, applicable seamlessly to both Bayesian
and frequentist formulations of bandits. Furthermore, our definition ensures
consistent classification of two bandits offering agents indistinguishable
experiences, categorizing them as either both stationary or both
non-stationary. This advancement provides a more robust framework for
non-stationary bandit learning.
- Abstract(参考訳): 非定常バンディット学習の話題は近年注目を集めているが,非定常バンディットと定常バンディットを一貫して区別できる非定常性の定義は定まっていない。
先行研究では、非定常バンディットを、報酬分布が時間とともに変化するバンディットとして特徴づけている。
この定義は定常分布と非定常分布の両方と同じバンドイットを曖昧に分類できることを示し、この曖昧さは既存の定義の報酬分布の潜在列への依存に生じる。
さらに、この定義は、動的後悔と弱い後悔という2つの広く使われている後悔の概念を生み出した。
これらの概念は、いくつかの帯域における定性的エージェントのパフォーマンスを示すものではない。
さらに、この非定常バンディットの定義は、過剰に探索するエージェントの設計につながった。
我々は,これらの問題を解決する非定常バンディットの形式的定義を導入する。
この新しい定義は統一的なアプローチを提供し、ベイジアンおよび頻繁なバンドイットの定式化の両方にシームレスに適用できる。
さらに,本定義では,エージェントの識別不能な2つのバンディットの一貫した分類を保証し,これらを静止型か非定常型かのいずれかに分類する。
この進歩は、非定常バンディット学習のためのより堅牢なフレームワークを提供する。
関連論文リスト
- Reproducible Bandits [95.8830340560603]
バンディット環境におけるポリシーは、2つの異なる実行において全く同じ腕列を高い確率で引き出すと再現可能と呼ばれる。
再現可能なポリシが存在するだけでなく、時間的地平線の観点から、ほぼ同じ(再現不可能な)後悔境界を達成することを示す。
以上の結果から,無作為化が探索・探索トレードオフに不可欠であるにもかかわらず,同一の腕を2回の異なるラウンドで引き抜いて最適なバランスをとれることが示唆された。
論文 参考訳(メタデータ) (2022-10-04T20:36:45Z) - Worst-case Performance of Greedy Policies in Bandits with Imperfect
Context Observations [1.370633147306388]
この研究は、パラメータと観測されていないコンテキストの現在の推定値が対応する真の値と一致するかのように行動をとるグレディ強化学習ポリシーを考察する。
非漸近的な最悪の後悔は、時間軸や失敗確率と対数的に増大する一方、腕の数と線形にスケールする。
論文 参考訳(メタデータ) (2022-04-10T21:27:56Z) - Bridging Adversarial and Nonstationary Multi-armed Bandit [10.3206415401832]
2つの定式化は、典型的には時間変化の報酬分布を扱うために用いられる: 逆の帯域幅と非定常帯域幅である。
この2つを特別なケースとしてスムーズにブリッジする統一的な定式化を提供する。
一致した下界で最適な後悔を達成するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-01-05T14:18:14Z) - On Slowly-varying Non-stationary Bandits [25.305949034527202]
我々は、ゆっくりと変化する性質を持つ非定常包帯の動的後悔を考察する。
我々は、ゆっくりと変化する非定常帯域に対して、最初のインスタンス依存後悔上限を確立する。
我々のアルゴリズムは基本的にミニマックス最適であることを示す。
論文 参考訳(メタデータ) (2021-10-25T12:56:19Z) - Robust Allocations with Diversity Constraints [65.3799850959513]
エージェント値の積を最大化するナッシュ福祉規則は,多様性の制約が導入されたとき,一意にロバストな位置にあることを示す。
また, ナッシュ・ウェルズによる保証は, 広く研究されているアロケーション・ルールのクラスにおいて, ほぼ最適であることを示す。
論文 参考訳(メタデータ) (2021-09-30T11:09:31Z) - Distribution-free uncertainty quantification for classification under
label shift [105.27463615756733]
2つの経路による分類問題に対する不確実性定量化(UQ)に焦点を当てる。
まず、ラベルシフトはカバレッジとキャリブレーションの低下を示すことでuqを損なうと論じる。
これらの手法を, 理論上, 分散性のない枠組みで検討し, その優れた実用性を示す。
論文 参考訳(メタデータ) (2021-03-04T20:51:03Z) - Learning from History for Byzantine Robust Optimization [52.68913869776858]
分散学習の重要性から,ビザンチンの堅牢性が近年注目されている。
既存のロバストアグリゲーションルールの多くは、ビザンチンの攻撃者がいなくても収束しない可能性がある。
論文 参考訳(メタデータ) (2020-12-18T16:22:32Z) - Unifying Clustered and Non-stationary Bandits [50.12992652938055]
非定常的盗賊とオンラインの盗賊のクラスタリングは、文脈的盗賊の制約的な仮定を解き放つ。
本研究では,非定常帯域に対する変化検出と,オンライン帯域クラスタリングのためのクラスタ識別をシームレスに行う均質性試験を提案する。
厳密な後悔分析と広範な経験的評価により,提案手法の価値が示された。
論文 参考訳(メタデータ) (2020-09-05T04:58:06Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。