論文の概要: Linear Bandits with Memory: from Rotting to Rising
- arxiv url: http://arxiv.org/abs/2302.08345v1
- Date: Thu, 16 Feb 2023 15:02:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-17 13:40:31.211378
- Title: Linear Bandits with Memory: from Rotting to Rising
- Title(参考訳): 記憶のある線形バンド:回転から上昇まで
- Authors: Giulia Clerici, Pierre Laforgue, Nicol\`o Cesa-Bianchi
- Abstract要約: 非定常線形包帯の研究のための一般的な枠組みを導入する。
現在の報酬は、固定サイズのウィンドウにおける学習者の過去の行動に影響される。
我々は近似と推定誤差のバランスをとるOFULアルゴリズムの変種に対する後悔の限界を証明した。
- 参考スコア(独自算出の注目度): 5.5969337839476765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nonstationary phenomena, such as satiation effects in recommendation, are a
common feature of sequential decision-making problems. While these phenomena
have been mostly studied in the framework of bandits with finitely many arms,
in many practically relevant cases linear bandits provide a more effective
modeling choice. In this work, we introduce a general framework for the study
of nonstationary linear bandits, where current rewards are influenced by the
learner's past actions in a fixed-size window. In particular, our model
includes stationary linear bandits as a special case. After showing that the
best sequence of actions is NP-hard to compute in our model, we focus on cyclic
policies and prove a regret bound for a variant of the OFUL algorithm that
balances approximation and estimation errors. Our theoretical findings are
supported by experiments (which also include misspecified settings) where our
algorithm is seen to perform well against natural baselines.
- Abstract(参考訳): 推奨における満足効果のような非定常現象は、シーケンシャルな意思決定問題の共通の特徴である。
これらの現象は、主に有限個の腕を持つ包帯の枠組みで研究されているが、実際的な場合の多くは、より効果的なモデリング選択を提供する。
本研究では,固定サイズウィンドウにおける学習者の過去の行動に,現在の報酬が影響される非定常線形帯域の研究のための一般的な枠組みを紹介する。
特に,このモデルでは固定線形バンディットを特別な場合として含む。
最善のアクション列がモデルで計算が困難であることを示すと、周期的なポリシーに焦点を合わせ、近似と推定誤差のバランスをとるofulアルゴリズムの変種に対する後悔を証明する。
我々の理論的な発見は、我々のアルゴリズムが自然の基準線に対して良好に機能することを示す実験(不特定設定を含む)によって支持される。
関連論文リスト
- Linear bandits with polylogarithmic minimax regret [8.97780713904412]
本研究では,未知ベクトルに近づいた単位球上での動作を選択すると,サブガウス雑音パラメータが線形に消滅する線形帯域の雑音モデルについて検討する。
我々は,この問題に対するアルゴリズムを導入し,この最小限の後悔のスケーリングを,時間軸で$log3(T)$,時間軸で$T$として示す。
論文 参考訳(メタデータ) (2024-02-19T10:56:47Z) - Borda Regret Minimization for Generalized Linear Dueling Bandits [65.09919504862496]
本稿では,ボルダスコアが最も高い項目を識別することを目的とした,デュエルバンディットに対するボルダ後悔最小化問題について検討する。
本稿では,多くの既存モデルをカバーする一般化線形デュエルバンドモデルのリッチクラスを提案する。
我々のアルゴリズムは$tildeO(d2/3 T2/3)$ regretを達成し、これも最適である。
論文 参考訳(メタデータ) (2023-03-15T17:59:27Z) - Causal Bandits for Linear Structural Equation Models [58.2875460517691]
本稿では,因果図形モデルにおける最適な介入順序を設計する問題について検討する。
グラフの構造は知られており、ノードは$N$である。
頻繁性(UCBベース)とベイズ的設定に2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-26T16:21:31Z) - Exploration in Linear Bandits with Rich Action Sets and its Implications
for Inference [23.364534479492715]
期待行列の最小固有値は、アルゴリズムの累積後悔が$sqrtn)$であるときに、$Omega(sqrtn)として増加することを示す。
本研究は, 線形帯域におけるEmphmodel selectionとEmphclusteringの2つの実践シナリオに適用する。
論文 参考訳(メタデータ) (2022-07-23T20:25:07Z) - Variance-Aware Sparse Linear Bandits [64.70681598741417]
余分な線形包帯に対する最悪のミニマックスは$widetildeThetaleft(sqrtdTright)$である。
ノイズがなく、アクションセットが単位球面である良性設定では、ディビジョン・アンド・コンカーを使用して、$widetildemathcal O(1)$ regretを達成することができる。
我々は,任意の分散対応線形帯域幅アルゴリズムを分散対応線形帯域幅アルゴリズムに変換する汎用フレームワークを開発した。
論文 参考訳(メタデータ) (2022-05-26T15:55:44Z) - Adversarial Combinatorial Bandits with General Non-linear Reward
Functions [29.775097827244853]
既知の非線形報酬関数を用いて対向性バンディットを研究し、対向性線形バンディットに関する既存の研究を延長する。
我々は、$N$の腕と$K$の腕のサブセットが$T$の期間のそれぞれで選択されている場合、ミニマックスの最適な後悔は$widetildeTheta_d(Nd T)$報酬関数が$dK$の$d$度であり、$ta_K(sqrtK T)$報酬関数が低度ではない場合です。
論文 参考訳(メタデータ) (2021-01-05T00:56:27Z) - Impact of Representation Learning in Linear Bandits [83.17684841392754]
本研究では,表現学習が帯域幅問題の効率性を向上させる方法について検討する。
我々は,$widetildeO(TsqrtkN + sqrtdkNT)$ regretを達成する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-13T16:35:30Z) - Nearly Dimension-Independent Sparse Linear Bandit over Small Action
Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。
この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。
本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-09-04T04:10:39Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z) - Nearly Optimal Regret for Stochastic Linear Bandits with Heavy-Tailed
Payoffs [35.988644745703645]
我々は、リニアバンディットをヘビーテールのペイオフで分析し、そこではペイオフは1+epsilon$のモーメントしか持たない。
本稿では,$widetildeO(dfrac12Tfrac11+epsilon)$のサブ線形後悔境界を満足する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-04-28T13:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。