論文の概要: A Definition of Non-Stationary Bandits
- arxiv url: http://arxiv.org/abs/2302.12202v2
- Date: Fri, 28 Jul 2023 07:50:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-31 16:10:10.607945
- Title: A Definition of Non-Stationary Bandits
- Title(参考訳): 非定常帯域の定義
- Authors: Yueyang Liu, Xu Kuang, Benjamin Van Roy
- Abstract要約: 非定常帯域を定常帯域と一貫した区別が可能な非定常帯域の形式的定義を同定する。
この定義は定常的・非定常的の両方と同じ帯域幅を明確に分類できることを示す。
これらの問題を解消する非定常的包帯の形式的定義を導入する。
- 参考スコア(独自算出の注目度): 12.643821787548154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the subject of non-stationary bandit learning having attracted much
recent attention, we have yet to identify a formal definition of
non-stationarity that can consistently distinguish non-stationary bandits from
stationary ones. Prior work has characterized non-stationary bandits as bandits
for which the reward distribution changes over time. We demonstrate that this
definition can ambiguously classify the same bandit as both stationary and
non-stationary; this ambiguity arises in the existing definition's dependence
on the latent sequence of reward distributions. Moreover, the definition has
given rise to two widely used notions of regret: the dynamic regret and the
weak regret. These notions are not indicative of qualitative agent performance
in some bandits. Additionally, this definition of non-stationary bandits has
led to the design of agents that explore excessively. We introduce a formal
definition of non-stationary bandits that resolves these issues. Our new
definition provides a unified approach, applicable seamlessly to both Bayesian
and frequentist formulations of bandits. Furthermore, our definition ensures
consistent classification of two bandits offering agents indistinguishable
experiences, categorizing them as either both stationary or both
non-stationary. This advancement provides a more robust framework for
non-stationary bandit learning.
- Abstract(参考訳): 非定常バンディット学習の話題は近年注目を集めているが,非定常バンディットと定常バンディットを一貫して区別できる非定常性の定義は定まっていない。
先行研究では、非定常バンディットを、報酬分布が時間とともに変化するバンディットとして特徴づけている。
この定義は定常分布と非定常分布の両方と同じバンドイットを曖昧に分類できることを示し、この曖昧さは既存の定義の報酬分布の潜在列への依存に生じる。
さらに、この定義は、動的後悔と弱い後悔という2つの広く使われている後悔の概念を生み出した。
これらの概念は、いくつかの帯域における定性的エージェントのパフォーマンスを示すものではない。
さらに、この非定常バンディットの定義は、過剰に探索するエージェントの設計につながった。
我々は,これらの問題を解決する非定常バンディットの形式的定義を導入する。
この新しい定義は統一的なアプローチを提供し、ベイジアンおよび頻繁なバンドイットの定式化の両方にシームレスに適用できる。
さらに,本定義では,エージェントの識別不能な2つのバンディットの一貫した分類を保証し,これらを静止型か非定常型かのいずれかに分類する。
この進歩は、非定常バンディット学習のためのより堅牢なフレームワークを提供する。
関連論文リスト
- Bridging Rested and Restless Bandits with Graph-Triggering: Rising and Rotting [67.1631453378926]
Graph-Triggered Banditsは、安静と安静のバンディットを一般化するフレームワークである。
本研究は,2種類の単調包帯に焦点をあてる: 立ち上がり, 腕の期待される報酬が増加する, 引き金の数が増える, 回転する, 反対の行動が起こる。
論文 参考訳(メタデータ) (2024-09-09T18:23:07Z) - Causal Bandits: The Pareto Optimal Frontier of Adaptivity, a Reduction to Linear Bandits, and Limitations around Unknown Marginals [28.94461817548213]
条件付き良性環境と任意の環境下での学習性能におけるトレードオフの可能性について,上界と下界の整合性を証明した。
この問題を線形バンディット設定に還元することで、最初に因果バンディットのインスタンス依存境界を求める。
論文 参考訳(メタデータ) (2024-07-01T04:12:15Z) - Imprecise Multi-Armed Bandits [0.0]
そこで本研究では,各アームが,結果空間上の固定された未知の干潟と結びついている,新しいマルチアーム・バンディット・フレームワークを提案する。
次に、これらのクレダル集合によって定義される下述の前提に対応する後悔の概念を定義する。
論文 参考訳(メタデータ) (2024-05-09T10:58:40Z) - Reproducible Bandits [95.8830340560603]
バンディット環境におけるポリシーは、2つの異なる実行において全く同じ腕列を高い確率で引き出すと再現可能と呼ばれる。
再現可能なポリシが存在するだけでなく、時間的地平線の観点から、ほぼ同じ(再現不可能な)後悔境界を達成することを示す。
以上の結果から,無作為化が探索・探索トレードオフに不可欠であるにもかかわらず,同一の腕を2回の異なるラウンドで引き抜いて最適なバランスをとれることが示唆された。
論文 参考訳(メタデータ) (2022-10-04T20:36:45Z) - Worst-case Performance of Greedy Policies in Bandits with Imperfect
Context Observations [1.370633147306388]
この研究は、パラメータと観測されていないコンテキストの現在の推定値が対応する真の値と一致するかのように行動をとるグレディ強化学習ポリシーを考察する。
非漸近的な最悪の後悔は、時間軸や失敗確率と対数的に増大する一方、腕の数と線形にスケールする。
論文 参考訳(メタデータ) (2022-04-10T21:27:56Z) - Robust Allocations with Diversity Constraints [65.3799850959513]
エージェント値の積を最大化するナッシュ福祉規則は,多様性の制約が導入されたとき,一意にロバストな位置にあることを示す。
また, ナッシュ・ウェルズによる保証は, 広く研究されているアロケーション・ルールのクラスにおいて, ほぼ最適であることを示す。
論文 参考訳(メタデータ) (2021-09-30T11:09:31Z) - Learning from History for Byzantine Robust Optimization [52.68913869776858]
分散学習の重要性から,ビザンチンの堅牢性が近年注目されている。
既存のロバストアグリゲーションルールの多くは、ビザンチンの攻撃者がいなくても収束しない可能性がある。
論文 参考訳(メタデータ) (2020-12-18T16:22:32Z) - Unifying Clustered and Non-stationary Bandits [50.12992652938055]
非定常的盗賊とオンラインの盗賊のクラスタリングは、文脈的盗賊の制約的な仮定を解き放つ。
本研究では,非定常帯域に対する変化検出と,オンライン帯域クラスタリングのためのクラスタ識別をシームレスに行う均質性試験を提案する。
厳密な後悔分析と広範な経験的評価により,提案手法の価値が示された。
論文 参考訳(メタデータ) (2020-09-05T04:58:06Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。