論文の概要: A Definition of Non-Stationary Bandits
- arxiv url: http://arxiv.org/abs/2302.12202v1
- Date: Thu, 23 Feb 2023 17:55:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-24 14:12:15.056771
- Title: A Definition of Non-Stationary Bandits
- Title(参考訳): 非定常帯域の定義
- Authors: Yueyang Liu, Benjamin Van Roy, Kuang Xu
- Abstract要約: 非定常的盗賊は正式な定義を欠いている。
後悔という広く使われる概念は曖昧な定義によって動機付けられている。
本論文の主な貢献はあいまいさを解決する公式な定義である。
- 参考スコア(独自算出の注目度): 18.27298359712317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The subject of non-stationary bandit learning has attracted much recent
attention. However, non-stationary bandits lack a formal definition. Loosely
speaking, non-stationary bandits have typically been characterized in the
literature as those for which the reward distribution changes over time. We
demonstrate that this informal definition is ambiguous. Further, a widely-used
notion of regret -- the dynamic regret -- is motivated by this ambiguous
definition and thus problematic. In particular, even for an optimal agent,
dynamic regret can suggest poor performance. The ambiguous definition also
motivates a measure of the degree of non-stationarity experienced by a bandit,
which often overestimates and can give rise to extremely loose regret bounds.
The primary contribution of this paper is a formal definition that resolves
ambiguity. This definition motivates a new notion of regret, an alternative
measure of the degree of non-stationarity, and a regret analysis that leads to
tighter bounds for non-stationary bandit learning. The regret analysis applies
to any bandit, stationary or non-stationary, and any agent.
- Abstract(参考訳): 非定常的盗賊学習の主題は近年注目を集めている。
しかし、非定常的盗賊には正式な定義がない。
緩やかに言えば、非定常バンディットは、典型的には、報酬分布が時間とともに変化するものとして文学で特徴付けられる。
この非公式な定義は曖昧であることを示す。
さらに、広く使われている後悔(動的後悔)の概念は、この曖昧な定義によって動機づけられ、それゆえ問題となる。
特に最適なエージェントであっても、動的後悔はパフォーマンスの低下を示唆する。
あいまいな定義は、しばしば過大評価され、非常にゆるやかな後悔の境界をもたらす、盗賊によって経験される非定常性の度合いの尺度も動機付けている。
本論文の主な貢献はあいまいさを解決する公式な定義である。
この定義は、後悔の新たな概念、非定常性の度合いの代替尺度、および非定常的バンディット学習の厳密な境界につながる後悔の分析を動機付けている。
後悔の分析は、あらゆるバンディット、定常または非定常、および任意のエージェントに適用される。
関連論文リスト
- Bridging Rested and Restless Bandits with Graph-Triggering: Rising and Rotting [67.1631453378926]
Graph-Triggered Banditsは、安静と安静のバンディットを一般化するフレームワークである。
本研究は,2種類の単調包帯に焦点をあてる: 立ち上がり, 腕の期待される報酬が増加する, 引き金の数が増える, 回転する, 反対の行動が起こる。
論文 参考訳(メタデータ) (2024-09-09T18:23:07Z) - Causal Bandits: The Pareto Optimal Frontier of Adaptivity, a Reduction to Linear Bandits, and Limitations around Unknown Marginals [28.94461817548213]
条件付き良性環境と任意の環境下での学習性能におけるトレードオフの可能性について,上界と下界の整合性を証明した。
この問題を線形バンディット設定に還元することで、最初に因果バンディットのインスタンス依存境界を求める。
論文 参考訳(メタデータ) (2024-07-01T04:12:15Z) - Imprecise Multi-Armed Bandits [0.0]
そこで本研究では,各アームが,結果空間上の固定された未知の干潟と結びついている,新しいマルチアーム・バンディット・フレームワークを提案する。
次に、これらのクレダル集合によって定義される下述の前提に対応する後悔の概念を定義する。
論文 参考訳(メタデータ) (2024-05-09T10:58:40Z) - Reproducible Bandits [95.8830340560603]
バンディット環境におけるポリシーは、2つの異なる実行において全く同じ腕列を高い確率で引き出すと再現可能と呼ばれる。
再現可能なポリシが存在するだけでなく、時間的地平線の観点から、ほぼ同じ(再現不可能な)後悔境界を達成することを示す。
以上の結果から,無作為化が探索・探索トレードオフに不可欠であるにもかかわらず,同一の腕を2回の異なるラウンドで引き抜いて最適なバランスをとれることが示唆された。
論文 参考訳(メタデータ) (2022-10-04T20:36:45Z) - Worst-case Performance of Greedy Policies in Bandits with Imperfect
Context Observations [1.370633147306388]
この研究は、パラメータと観測されていないコンテキストの現在の推定値が対応する真の値と一致するかのように行動をとるグレディ強化学習ポリシーを考察する。
非漸近的な最悪の後悔は、時間軸や失敗確率と対数的に増大する一方、腕の数と線形にスケールする。
論文 参考訳(メタデータ) (2022-04-10T21:27:56Z) - Robust Allocations with Diversity Constraints [65.3799850959513]
エージェント値の積を最大化するナッシュ福祉規則は,多様性の制約が導入されたとき,一意にロバストな位置にあることを示す。
また, ナッシュ・ウェルズによる保証は, 広く研究されているアロケーション・ルールのクラスにおいて, ほぼ最適であることを示す。
論文 参考訳(メタデータ) (2021-09-30T11:09:31Z) - Learning from History for Byzantine Robust Optimization [52.68913869776858]
分散学習の重要性から,ビザンチンの堅牢性が近年注目されている。
既存のロバストアグリゲーションルールの多くは、ビザンチンの攻撃者がいなくても収束しない可能性がある。
論文 参考訳(メタデータ) (2020-12-18T16:22:32Z) - Unifying Clustered and Non-stationary Bandits [50.12992652938055]
非定常的盗賊とオンラインの盗賊のクラスタリングは、文脈的盗賊の制約的な仮定を解き放つ。
本研究では,非定常帯域に対する変化検出と,オンライン帯域クラスタリングのためのクラスタ識別をシームレスに行う均質性試験を提案する。
厳密な後悔分析と広範な経験的評価により,提案手法の価値が示された。
論文 参考訳(メタデータ) (2020-09-05T04:58:06Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。