論文の概要: Improved Confidence Bounds for the Linear Logistic Model and
Applications to Linear Bandits
- arxiv url: http://arxiv.org/abs/2011.11222v2
- Date: Thu, 18 Mar 2021 04:45:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 01:27:30.294073
- Title: Improved Confidence Bounds for the Linear Logistic Model and
Applications to Linear Bandits
- Title(参考訳): 線形ロジスティックモデルにおける信頼境界の改善と線形帯域への応用
- Authors: Kwang-Sung Jun, Lalit Jain, Blake Mason, Houssam Nassif
- Abstract要約: 私たちの信頼境界は$/kappa$への直接的な依存を避ける。
本報告では, 純粋探索と, 既往のロジスティック・バンディットに対して, 最先端の性能保証を改善した2つの適用例を示す。
- 参考スコア(独自算出の注目度): 26.96422507226679
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose improved fixed-design confidence bounds for the linear logistic
model. Our bounds significantly improve upon the state-of-the-art bound by Li
et al. (2017) via recent developments of the self-concordant analysis of the
logistic loss (Faury et al., 2020). Specifically, our confidence bound avoids a
direct dependence on $1/\kappa$, where $\kappa$ is the minimal variance over
all arms' reward distributions. In general, $1/\kappa$ scales exponentially
with the norm of the unknown linear parameter $\theta^*$. Instead of relying on
this worst-case quantity, our confidence bound for the reward of any given arm
depends directly on the variance of that arm's reward distribution. We present
two applications of our novel bounds to pure exploration and regret
minimization logistic bandits improving upon state-of-the-art performance
guarantees. For pure exploration, we also provide a lower bound highlighting a
dependence on $1/\kappa$ for a family of instances.
- Abstract(参考訳): 線形ロジスティックモデルの固定設計信頼境界の改善を提案する。
我々はロジスティックロスの自己一致分析(faury et al., 2020)の最近の開発を通じて,li et al.(2017)の最先端のバウンドを著しく改善した。
具体的には、我々の信頼境界は1/\kappa$への直接的な依存を回避し、$\kappa$はすべての武器の報酬分布に対する最小分散である。
一般に、1/\kappa$ は未知の線形パラメータ $\theta^*$ のノルムで指数関数的にスケールする。
この最悪の場合の量に頼る代わりに、任意のアームの報酬に対する我々の信頼は、そのアームの報酬分布のばらつきに直接依存します。
本稿では,最先端性能の保証により改善する,純粋探索と後悔の少ないロジスティックバンディットに対する新たな境界の2つの応用について述べる。
純粋な探索には、インスタンスファミリーに対する1/\kappa$への依存を強調する下限も提供します。
関連論文リスト
- Fixed-Budget Best-Arm Identification in Sparse Linear Bandits [69.6194614504832]
固定予算設定下での疎線形包帯のベストアーム識別問題について検討した。
我々は2相アルゴリズムであるLassoとOptimal-Design-(Lasso-OD)をベースとした線形ベストアーム識別を設計する。
我々はラッソODが指数においてほぼ極小であることを示す。
論文 参考訳(メタデータ) (2023-11-01T12:32:17Z) - Improved Regret Bounds of (Multinomial) Logistic Bandits via
Regret-to-Confidence-Set Conversion [40.159846982245746]
我々は,オンライン学習アルゴリズムのテキストテキシスタンスのみに基づく凸信頼セットを,後悔の保証付きで構築する。
R2CSを用いて、計算実現可能性を維持しながら、ロジスティックな包帯におけるw.r.t.$S$を厳格に改善する。
我々は,この分析を多項ロジスティック・バンディットにまで拡張し,R2CSの有効性を示した。
論文 参考訳(メタデータ) (2023-10-28T01:27:52Z) - Double Doubly Robust Thompson Sampling for Generalized Linear Contextual
Bandits [8.508198765617198]
一般化線形報酬に$tildeO(sqrtkappa-1 phi T)$ regret over $T$ roundsを提案する。
また、確率的マージン条件下では、$O(kappa-1 phi log (NT) log T)$ regret bound for $N$ arms も提供する。
論文 参考訳(メタデータ) (2022-09-15T00:20:38Z) - High Probability Bounds for a Class of Nonconvex Algorithms with AdaGrad
Stepsize [55.0090961425708]
本研究では,AdaGradのスムーズな非確率問題に対する簡易な高確率解析法を提案する。
我々はモジュラーな方法で解析を行い、決定論的設定において相補的な$mathcal O (1 / TT)$収束率を得る。
我々の知る限りでは、これは真に適応的なスキームを持つAdaGradにとって初めての高い確率である。
論文 参考訳(メタデータ) (2022-04-06T13:50:33Z) - An Experimental Design Approach for Regret Minimization in Logistic
Bandits [26.674062544226636]
ロジスティックな盗賊の最大の課題は、潜在的に大きな問題に依存する定数$kappa$への依存を減らすことである。
そこで本研究では,新しいウォームアップサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-04T21:56:40Z) - Top $K$ Ranking for Multi-Armed Bandit with Noisy Evaluations [102.32996053572144]
我々は,各ラウンドの開始時に,学習者が各アームの真の報酬について,ノイズのない独立した評価を受けるマルチアームバンディット・セッティングを考える。
評価の方法によって異なるアルゴリズムアプローチと理論的保証を導出する。
論文 参考訳(メタデータ) (2021-12-13T09:48:54Z) - Certifiably Robust Interpretation via Renyi Differential Privacy [77.04377192920741]
我々はRenyi差分プライバシー(RDP)の新しい視点から解釈堅牢性の問題を研究する。
まず、証明可能で証明可能なトップ$k$ロバスト性を提供する。
第二に、提案手法は既存の手法よりも実験的堅牢性を$sim10%$で提供する。
第3に,ロバスト性と計算効率のトレードオフを円滑に行うことができる。
論文 参考訳(メタデータ) (2021-07-04T06:58:01Z) - Towards Minimax Optimal Best Arm Identification in Linear Bandits [95.22854522340938]
固定予算設定における線形包帯における最適な腕識別の問題について検討する。
G-最適設計の特性を活用し、アーム割り当て規則に組み込むことにより、パラメータフリーなアルゴリズムを設計する。
OD-LinBAIの故障確率に関する理論的解析を行った。
論文 参考訳(メタデータ) (2021-05-27T09:19:10Z) - High-Dimensional Sparse Linear Bandits [67.9378546011416]
データ・ポーア・システマティクスにおける疎線形包帯に対して、新しい$Omega(n2/3)$ dimension-free minimax regret lower boundを導出する。
また、関連する特徴に対する信号の大きさに関する追加の仮定の下で、次元のない$O(sqrtn)$ regret上界も証明する。
論文 参考訳(メタデータ) (2020-11-08T16:48:11Z) - Instance-Wise Minimax-Optimal Algorithms for Logistic Bandits [9.833844886421694]
ロジスティック・バンディットは、パラメタライズド・バンディットにおける非線形性の影響を理解するための、散らかったが挑戦的な枠組みを提供することによって、かなりの注目を集めている。
非線型性の効果を精密に解析する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-23T20:07:31Z) - Improved Optimistic Algorithms for Logistic Bandits [16.140301473601454]
そこで本稿では,報酬関数の非線形性について,より詳細な検証に基づく新しい楽観的アルゴリズムを提案する。
我々は、$tildemathcalO(sqrtT)$ regretを楽しんでおり、$kappa$に依存しないが、第2の順序の項には依存しないことを示す。
論文 参考訳(メタデータ) (2020-02-18T12:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。