論文の概要: Achieving Near Instance-Optimality and Minimax-Optimality in Stochastic
and Adversarial Linear Bandits Simultaneously
- arxiv url: http://arxiv.org/abs/2102.05858v2
- Date: Fri, 12 Feb 2021 05:42:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-15 13:08:13.760966
- Title: Achieving Near Instance-Optimality and Minimax-Optimality in Stochastic
and Adversarial Linear Bandits Simultaneously
- Title(参考訳): 確率的, 対逆的な線形帯における近接インスタンス・オプティマティとミニマックス・オプティマティクスを同時に実現する
- Authors: Chung-Wei Lee, Haipeng Luo, Chen-Yu Wei, Mengxiao Zhang, Xiaojin Zhang
- Abstract要約: 異なる環境に自動的に適応する線形バンディットアルゴリズムを開発。
我々の第一のアルゴリズムは、インスタンス最適性も汚職量への最適依存も達成しない。
第2のアルゴリズムは, 完全に敵対的な環境下での最小限の後悔を享受する。
- 参考スコア(独自算出の注目度): 35.69792804089416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we develop linear bandit algorithms that automatically adapt to
different environments. By plugging a novel loss estimator into the
optimization problem that characterizes the instance-optimal strategy, our
first algorithm not only achieves nearly instance-optimal regret in stochastic
environments, but also works in corrupted environments with additional regret
being the amount of corruption, while the state-of-the-art (Li et al., 2019)
achieves neither instance-optimality nor the optimal dependence on the
corruption amount. Moreover, by equipping this algorithm with an adversarial
component and carefully-designed testings, our second algorithm additionally
enjoys minimax-optimal regret in completely adversarial environments, which is
the first of this kind to our knowledge. Finally, all our guarantees hold with
high probability, while existing instance-optimal guarantees only hold in
expectation.
- Abstract(参考訳): 本研究では,異なる環境に自動的に適応する線形バンディットアルゴリズムを開発した。
新しい損失推定器をインスタンス最適化戦略を特徴付ける最適化問題に差し込むことで、私たちの最初のアルゴリズムは確率的環境でのインスタンス最適化の後悔をほぼ達成するだけでなく、さらに後悔の量である腐敗した環境で動作し、最先端の(Li et al.、2019)はインスタンス最適化も破損量への最適依存も達成しません。
さらに、このアルゴリズムを逆成分と慎重に設計したテストとを併用することにより、我々の第2のアルゴリズムは、完全に逆条件下での最小限の後悔を享受する。
最後に、すべての保証は高い確率で保持されますが、既存のインスタンス最適化保証は期待通りです。
関連論文リスト
- Overcoming Brittleness in Pareto-Optimal Learning-Augmented Algorithms [6.131022957085439]
本稿では,ユーザ特定プロファイルを用いて,アルゴリズムの性能のスムーズさを強制する新しいフレームワークを提案する。
我々は、この新しいアプローチを、よく研究されたオンライン問題、すなわち片道取引問題に適用する。
論文 参考訳(メタデータ) (2024-08-07T23:15:21Z) - Accelerated First-Order Optimization under Nonlinear Constraints [73.2273449996098]
我々は、制約付き最適化のための一階アルゴリズムと非滑らかなシステムの間で、新しい一階アルゴリズムのクラスを設計する。
これらのアルゴリズムの重要な性質は、制約がスパース変数の代わりに速度で表されることである。
論文 参考訳(メタデータ) (2023-02-01T08:50:48Z) - On Adaptivity in Non-stationary Stochastic Optimization With Bandit
Feedback [11.208914594208654]
集約された関数の変化が事前認識されている場合、単純な再起動アルゴリズムが最適の動的後悔を達成できることが示される。
また,静止ベンチマークに対して良好な後悔を達成するアルゴリズムを,動的ベンチマークに対して良い後悔を与えるアルゴリズムに自動的に変換できることを示す。
論文 参考訳(メタデータ) (2022-10-11T16:16:34Z) - On the Optimality of Batch Policy Optimization Algorithms [106.89498352537682]
バッチポリシー最適化は、環境と対話する前に既存のデータをポリシー構築に活用することを検討する。
信頼調整インデックスアルゴリズムは楽観的,悲観的,中立的いずれであってもミニマックス最適であることを示す。
最適値予測の本来の難易度を考慮した新しい重み付き最小値基準を提案する。
論文 参考訳(メタデータ) (2021-04-06T05:23:20Z) - Byzantine-Resilient Non-Convex Stochastic Gradient Descent [61.6382287971982]
敵対的レジリエントな分散最適化。
機械は独立して勾配を計算し 協力することができます
私達のアルゴリズムは新しい集中の技術およびサンプル複雑性に基づいています。
それは非常に実用的です:それはないときすべての前の方法の性能を改善します。
セッティングマシンがあります。
論文 参考訳(メタデータ) (2020-12-28T17:19:32Z) - Experimental Design for Regret Minimization in Linear Bandits [19.8309784360219]
オンライン・リニア・バンドレットにおける後悔を最小限に抑える設計に基づく新しいアルゴリズムを提案する。
我々は、現在最先端の有限時間後悔保証を提供し、このアルゴリズムが帯域幅と半帯域幅の両方のフィードバックシステムに適用可能であることを示す。
論文 参考訳(メタデータ) (2020-11-01T17:59:19Z) - An Asymptotically Optimal Primal-Dual Incremental Algorithm for
Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。
非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文 参考訳(メタデータ) (2020-10-23T09:12:47Z) - Gamification of Pure Exploration for Linear Bandits [34.16123941778227]
線形バンディットの文脈において、ベストアーム識別を含む活発な純粋探索環境について検討する。
標準的なマルチアームバンディットには最適アルゴリズムが存在するが、リニアバンディットにおけるベストアーム識別のためのアルゴリズムの存在は明白である。
線形帯域における固定信頼純粋探索のための第一の洞察的最適アルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-07-02T08:20:35Z) - Corruption-Tolerant Gaussian Process Bandit Optimization [130.60115798580136]
未知(典型的には非生成)関数を有界ノルムで最適化する問題を考察する。
我々は「高速だが非ローバスト」と「スロー」に基づく高速スローGP-UCBに基づくアルゴリズムを提案する。
ある種の依存関係は、汚職レベルによっては要求できない、と我々は主張する。
論文 参考訳(メタデータ) (2020-03-04T09:46:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。