論文の概要: Comparator-adaptive Convex Bandits
- arxiv url: http://arxiv.org/abs/2007.08448v1
- Date: Thu, 16 Jul 2020 16:33:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 22:12:28.962621
- Title: Comparator-adaptive Convex Bandits
- Title(参考訳): コンパレータ適応凸バンディット
- Authors: Dirk van der Hoeven and Ashok Cutkosky and Haipeng Luo
- Abstract要約: 我々は,コンパレータのノルムが小さい場合,残差が小さい凸バンディットアルゴリズムを開発した。
アイデアを拡張して、リプシッツや滑らかな損失関数で包帯を凸する。
- 参考スコア(独自算出の注目度): 77.43350984086119
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study bandit convex optimization methods that adapt to the norm of the
comparator, a topic that has only been studied before for its full-information
counterpart. Specifically, we develop convex bandit algorithms with regret
bounds that are small whenever the norm of the comparator is small. We first
use techniques from the full-information setting to develop comparator-adaptive
algorithms for linear bandits. Then, we extend the ideas to convex bandits with
Lipschitz or smooth loss functions, using a new single-point gradient estimator
and carefully designed surrogate losses.
- Abstract(参考訳): 本研究では,コンパレータの規範に適合するバンディット凸最適化手法について検討する。
具体的には、コンパレータのノルムが小さいときは常に小さい後悔境界を持つ凸バンディットアルゴリズムを開発する。
まず,線形帯域に対するコンパレータ適応アルゴリズムを開発するために,全情報設定の手法を用いる。
次に、新しい単一点勾配推定器と注意深く設計されたサロゲート損失を用いて、リプシッツやスムーズな損失関数との接点バンディットへ拡張する。
関連論文リスト
- Bregman-divergence-based Arimoto-Blahut algorithm [53.64687146666141]
本稿では,Arimoto-BlahutアルゴリズムをBregman-Diversergenceシステム上で定義された一般関数に一般化する。
本稿では,古典的および量子速度歪み理論に適用可能な凸最適化自由アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-10T06:16:24Z) - Towards Efficient and Optimal Covariance-Adaptive Algorithms for Combinatorial Semi-Bandits [12.674929126684528]
我々は、プレイヤーがPアクションの中から d 個の基本アイテムを含む集合のパワーセットから選択する半帯域の問題に対処する。
提案手法は半帯域フィードバックを効果的に活用し,帯域フィードバックアプローチより優れていることを示す。
論文 参考訳(メタデータ) (2024-02-23T08:07:54Z) - Robust Low-Rank Matrix Completion via a New Sparsity-Inducing
Regularizer [30.920908325825668]
本稿では,ハイブリッド常連Welsch (HOW) に新たな損失関数を提案する。
論文 参考訳(メタデータ) (2023-10-07T09:47:55Z) - Optimal Gradient-based Algorithms for Non-concave Bandit Optimization [76.57464214864756]
この研究は、未知の報酬関数が非可逆であるようなバンドイット問題の大群を考察する。
我々のアルゴリズムは、非常に一般化されたゼロ階最適化のパラダイムに基づいている。
標準的な楽観的アルゴリズムは次元因子によって準最適であることを示す。
論文 参考訳(メタデータ) (2021-07-09T16:04:24Z) - Optimal Stochastic Nonconvex Optimization with Bandit Feedback [45.675080529219365]
一定の平滑さと部分レベル集合仮定の下で非コスト関数に対する連続武装バンディット問題を解析する。
次に、性能を大幅に向上させる適応分割法を提案する。
論文 参考訳(メタデータ) (2021-03-30T05:21:12Z) - Upper Confidence Bounds for Combining Stochastic Bandits [52.10197476419621]
バンディットアルゴリズムを結合する簡単な手法を提案する。
私たちのアプローチは、個々のbanditアルゴリズムのそれぞれを、より高いレベルのn$-armed bandit問題のアームとして扱う"meta-ucb"手順に基づいています。
論文 参考訳(メタデータ) (2020-12-24T05:36:29Z) - Experimental Design for Regret Minimization in Linear Bandits [19.8309784360219]
オンライン・リニア・バンドレットにおける後悔を最小限に抑える設計に基づく新しいアルゴリズムを提案する。
我々は、現在最先端の有限時間後悔保証を提供し、このアルゴリズムが帯域幅と半帯域幅の両方のフィードバックシステムに適用可能であることを示す。
論文 参考訳(メタデータ) (2020-11-01T17:59:19Z) - An Asymptotically Optimal Primal-Dual Incremental Algorithm for
Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。
非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文 参考訳(メタデータ) (2020-10-23T09:12:47Z) - An Empirical Process Approach to the Union Bound: Practical Algorithms
for Combinatorial and Linear Bandits [34.06611065493047]
本稿では、信頼度と予算設定の固定化において、純探索線形帯域問題に対する近似アルゴリズムを提案する。
サンプルの複雑性がインスタンスの幾何でスケールし、アームの数に縛られた明示的な結合を避けるアルゴリズムを提供する。
また,固定予算設定における線形帯域幅に対する最初のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-21T00:56:33Z) - Effective Dimension Adaptive Sketching Methods for Faster Regularized
Least-Squares Optimization [56.05635751529922]
スケッチに基づくL2正規化最小二乗問題の解法を提案する。
我々は、最も人気のあるランダム埋め込みの2つ、すなわちガウス埋め込みとサブサンプリングランダム化アダマール変換(SRHT)を考える。
論文 参考訳(メタデータ) (2020-06-10T15:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。