論文の概要: A Unified Confidence Sequence for Generalized Linear Models, with Applications to Bandits
- arxiv url: http://arxiv.org/abs/2407.13977v1
- Date: Fri, 19 Jul 2024 02:06:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 19:03:23.460857
- Title: A Unified Confidence Sequence for Generalized Linear Models, with Applications to Bandits
- Title(参考訳): 一般化線形モデルに対する統一信頼系列と帯域への応用
- Authors: Junghyun Lee, Se-Young Yun, Kwang-Sung Jun,
- Abstract要約: 我々は,任意の(自己調和型)一般化線形モデル(GLMs)に対して,統一度比に基づく信頼シーケンス(CS)を提案する。
ガウシアン,ベルヌーイ,ポアソンなど,様々な GLM の既知の CS と同等あるいは同等であることを示す。
特にベルヌーイに対する我々のCSは、S が未知のパラメータのノルムであるようなポリ(S)-自由半径を持つ。
- 参考スコア(独自算出の注目度): 35.732587116399316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a unified likelihood ratio-based confidence sequence (CS) for any (self-concordant) generalized linear models (GLMs) that is guaranteed to be convex and numerically tight. We show that this is on par or improves upon known CSs for various GLMs, including Gaussian, Bernoulli, and Poisson. In particular, for the first time, our CS for Bernoulli has a poly(S)-free radius where S is the norm of the unknown parameter. Our first technical novelty is its derivation, which utilizes a time-uniform PAC-Bayesian bound with a uniform prior/posterior, despite the latter being a rather unpopular choice for deriving CSs. As a direct application of our new CS, we propose a simple and natural optimistic algorithm called OFUGLB applicable to any generalized linear bandits (GLB; Filippi et al. (2010)). Our analysis shows that the celebrated optimistic approach simultaneously attains state-of-the-art regrets for various self-concordant (not necessarily bounded) GLBs, and even poly(S)-free for bounded GLBs, including logistic bandits. The regret analysis, our second technical novelty, follows from combining our new CS with a new proof technique that completely avoids the previously widely used self-concordant control lemma (Faury et al., 2020, Lemma 9). Finally, we verify numerically that OFUGLB significantly outperforms the prior state-of-the-art (Lee et al., 2024) for logistic bandits.
- Abstract(参考訳): 我々は,凸かつ数値的にきついことが保証される任意の(自己調和型)一般化線形モデル(GLM)に対して,統一された疑似比に基づく信頼シーケンス(CS)を示す。
ガウシアン,ベルヌーイ,ポアソンなど,様々な GLM の既知の CS と同等あるいは同等であることを示す。
特にベルヌーイに対する我々のCSは、S が未知のパラメータのノルムであるようなポリ(S)-自由半径を持つ。
我々の最初の技術的ノベルティは、その導出であり、CSを導出するのにあまり人気がないにもかかわらず、一様の事前/後続のPAC-Bayesian境界を利用する。
新たなCSの直接的な応用として,任意の一般化線形帯域 (GLB; Filippi et al (2010)) に適用可能な,単純で自然な楽観的アルゴリズム OFUGLBを提案する。
分析の結果,有意な楽観的アプローチは,多彩な自己一致(必ずしも有界ではない)GLBに対して,またロジスティックバンディットを含む有界GLBに対してはポリ(S)フリーでも,最先端の後悔を同時に達成できることが示唆された。
第2の技術的斬新さである残念な分析は、我々の新しいCSと、これまで広く使われていた自己協和性制御レムマを完全に回避する新しい証明手法を組み合わせることによるものです(Faury et al , 2020, Lemma 9)。
最後に,OFUGLBがロジスティックバンディットの先行技術(Lee et al , 2024)よりも優れていたことを検証する。
関連論文リスト
- Revisiting Weighted Strategy for Non-stationary Parametric Bandits [82.1942459195896]
本稿では,非定常パラメトリックバンディットの重み付け戦略を再考する。
より単純な重みに基づくアルゴリズムを生成する改良された分析フレームワークを提案する。
我々の新しいフレームワークは、他のパラメトリックバンディットの後悔の限界を改善するのに使える。
論文 参考訳(メタデータ) (2023-03-05T15:11:14Z) - When Privacy Meets Partial Information: A Refined Analysis of
Differentially Private Bandits [4.964737844687583]
我々は、$epsilon$-global Differential Privacy (DP) を用いたマルチアームバンディットの問題点について検討する。
我々は、UCBおよびKL-UCBアルゴリズム、すなわちAdaP-UCBとAdaP-KLUCBの$epsilon$-global DP拡張をインスタンス化する。
AdaP-KLUCBは、どちらも$epsilon$-global DPを満たす最初のアルゴリズムであり、問題依存の下位境界を乗法定数に一致する後悔の上限を与える。
論文 参考訳(メタデータ) (2022-09-06T15:26:24Z) - On Kernelized Multi-Armed Bandits with Constraints [16.102401271318012]
一般に未知の報酬関数と一般未知の制約関数を併用した帯域幅問題について検討する。
本稿では,アルゴリズムの性能解析のための一般的なフレームワークを提案する。
本稿では,数値実験により提案アルゴリズムの優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-29T14:02:03Z) - Near-Optimal No-Regret Learning for Correlated Equilibria in
Multi-Player General-Sum Games [104.74734408204749]
マルチプレイヤーの汎用正規形式ゲームにおいて,OMWU(Optimistic Multiplicative Weights Update)を用いているエージェントが全員,O(textrmpolylog(T))$(T$)$(T$)$(OMWU)$(OMWU)$(OMWU)$(OMWU)$(OMWU)$)であることを示す。
外部の後悔から内部の後悔へと結果を拡張し、後悔を交換することで、近似した平衡に収束する非結合学習ダイナミクスを確立する。
論文 参考訳(メタデータ) (2021-11-11T01:19:53Z) - Misspecified Gaussian Process Bandit Optimization [59.30399661155574]
カーネル化されたバンディットアルゴリズムは、この問題に対して強い経験的および理論的性能を示した。
本稿では、未知関数を$epsilon$-一様近似で近似できるエンフェミス特定カーネル化帯域設定を、ある再生カーネルヒルベルト空間(RKHS)において有界ノルムを持つ関数で導入する。
提案アルゴリズムは,不特定性に関する事前知識を伴わず,$epsilon$への最適依存を実現する。
論文 参考訳(メタデータ) (2021-11-09T09:00:02Z) - Bayesian decision-making under misspecified priors with applications to
meta-learning [64.38020203019013]
トンプソンサンプリングやその他のシーケンシャルな意思決定アルゴリズムは、文脈的包帯における探索と探索のトレードオフに取り組むための一般的なアプローチである。
性能は不特定な事前条件で優雅に低下することを示す。
論文 参考訳(メタデータ) (2021-07-03T23:17:26Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z) - Regret and Belief Complexity Trade-off in Gaussian Process Bandits via
Information Thresholding [42.669970064867556]
GPバンディットアルゴリズムの残差境界と後部分布の複雑さのトレードオフを特徴付ける方法を示す。
大域的最適化に応用したGPバンディットアルゴリズムの精度と複雑性のトレードオフを観察する。
論文 参考訳(メタデータ) (2020-03-23T21:05:15Z) - A General Theory of the Stochastic Linear Bandit and Its Applications [8.071506311915398]
本稿では,線形バンディット問題に対する一般解析フレームワークとアルゴリズム群を紹介する。
予測における最適化という新たな概念は、OFULの過剰探索問題を減少させるSieeved greedy(SG)と呼ばれる新しいアルゴリズムを生み出します。
SGが理論的に最適であることを示すことに加えて、実験シミュレーションにより、SGはgreedy、OFUL、TSといった既存のベンチマークよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-02-12T18:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。