論文の概要: Algorithms for Non-Stationary Generalized Linear Bandits
- arxiv url: http://arxiv.org/abs/2003.10113v1
- Date: Mon, 23 Mar 2020 07:44:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 23:33:10.662541
- Title: Algorithms for Non-Stationary Generalized Linear Bandits
- Title(参考訳): 非定常一般化線形バンディットのアルゴリズム
- Authors: Yoan Russac (DI-ENS), Olivier Capp\'e (DI-ENS), Aur\'elien Garivier
(UMPA-ENSL)
- Abstract要約: ロジスティック回帰は、標準線形モデリングの使用よりも好ましいことが知られている。
スライドウインドウと最大形状推定器のどちらかを利用する2つの高信頼境界ベースアルゴリズムを提案する。
一般的な文脈系列に対するこれらのアルゴリズムの挙動と急激な変化の存在に関する理論的保証を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The statistical framework of Generalized Linear Models (GLM) can be applied
to sequential problems involving categorical or ordinal rewards associated, for
instance, with clicks, likes or ratings. In the example of binary rewards,
logistic regression is well-known to be preferable to the use of standard
linear modeling. Previous works have shown how to deal with GLMs in contextual
online learning with bandit feedback when the environment is assumed to be
stationary. In this paper, we relax this latter assumption and propose two
upper confidence bound based algorithms that make use of either a sliding
window or a discounted maximum-likelihood estimator. We provide theoretical
guarantees on the behavior of these algorithms for general context sequences
and in the presence of abrupt changes. These results take the form of high
probability upper bounds for the dynamic regret that are of order d^2/3 G^1/3
T^2/3 , where d, T and G are respectively the dimension of the unknown
parameter, the number of rounds and the number of breakpoints up to time T. The
empirical performance of the algorithms is illustrated in simulated
environments.
- Abstract(参考訳): 一般化線形モデル(GLM)の統計的枠組みは、例えばクリック、お気に入りまたはレーティングに関連するカテゴリー的または順序的な報酬を含むシーケンシャルな問題に適用することができる。
二項報酬の例では、ロジスティック回帰は標準線形モデリングの使用よりも好ましいことが知られている。
これまで,環境が静止していると仮定された場合,包括的フィードバックによる文脈オンライン学習におけるGLMの扱い方法が示されてきた。
本稿では、後者の仮定を緩和し、スライディングウインドウまたはディスカウントされた最大形推定器を利用する2つの高信頼境界ベースアルゴリズムを提案する。
一般的な文脈系列に対するこれらのアルゴリズムの挙動と急激な変化の存在に関する理論的保証を提供する。
これらの結果は、d^2/3 G^1/3 T^2/3 の次数である動的後悔に対する高い確率上界の形式をとり、d, T と G はそれぞれ未知のパラメータの次元、ラウンドの数、時間 T までのブレークポイントの数である。
関連論文リスト
- Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - Online and Offline Robust Multivariate Linear Regression [0.3277163122167433]
提案手法は,オンライン勾配降下アルゴリズムと平均化バージョン,オフライン固定点アルゴリズムの2つである。
ノイズの分散行列は一般に未知であるため、マハラノビスに基づく勾配勾配アルゴリズムに頑健な推定をプラグインすることを提案する。
論文 参考訳(メタデータ) (2024-04-30T12:30:48Z) - Learning a Gaussian Mixture for Sparsity Regularization in Inverse
Problems [2.375943263571389]
逆問題では、スパーシティ事前の組み込みは、解に対する正則化効果をもたらす。
本稿では,ガウスの混合として事前に定式化された確率的疎性について提案する。
我々は、このネットワークのパラメータを推定するために、教師なしのトレーニング戦略と教師なしのトレーニング戦略をそれぞれ導入した。
論文 参考訳(メタデータ) (2024-01-29T22:52:57Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Sharp global convergence guarantees for iterative nonconvex
optimization: A Gaussian process perspective [30.524043513721168]
回帰モデルのクラスに対する反復アルゴリズムの収束を解析するための一般的なレシピを開発する。
決定論的には、有限サンプル状態におけるアルゴリズムの収束率と最終的なエラーフロアの両方を正確にキャプチャする。
我々は、更新の交互化に基づく高次アルゴリズムと、下位次数に基づく一次アルゴリズムの両方に対して、鋭い収束率を示す。
論文 参考訳(メタデータ) (2021-09-20T21:48:19Z) - Identification and Adaptation with Binary-Valued Observations under
Non-Persistent Excitation Condition [1.6897716547971817]
2値観測による回帰モデルのパラメータ推定のためのオンライン予測準ニュートン型アルゴリズムを提案する。
推定アルゴリズムの強い整合性を確立し,収束率を与える。
適応予測器の収束と適応制御への応用についても論じる。
論文 参考訳(メタデータ) (2021-07-08T03:57:50Z) - High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。
そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - Self-Concordant Analysis of Generalized Linear Bandits with Forgetting [2.282313031205821]
ポアソンウィンドウや指数重みを用いた自己調和型GLB(ロジスティック回帰を含む)に焦点を当てる。
本稿では,GLB(Generalized Bandits)問題に対処するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-11-02T08:36:39Z) - Improving predictions of Bayesian neural nets via local linearization [79.21517734364093]
ガウス・ニュートン近似は基礎となるベイズニューラルネットワーク(BNN)の局所線形化として理解されるべきである。
この線形化モデルを後部推論に使用するので、元のモデルではなく、この修正モデルを使用することも予測すべきである。
この修正された予測を"GLM predictive"と呼び、Laplace近似の共通不適合問題を効果的に解決することを示す。
論文 参考訳(メタデータ) (2020-08-19T12:35:55Z) - When Does Preconditioning Help or Hurt Generalization? [74.25170084614098]
本稿では,第1次および第2次手法のテキスト単純バイアスが一般化特性の比較にどのように影響するかを示す。
本稿では、バイアス分散トレードオフを管理するためのいくつかのアプローチと、GDとNGDを補間する可能性について論じる。
論文 参考訳(メタデータ) (2020-06-18T17:57:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。