論文の概要: Nearly Dimension-Independent Sparse Linear Bandit over Small Action
Spaces via Best Subset Selection
- arxiv url: http://arxiv.org/abs/2009.02003v1
- Date: Fri, 4 Sep 2020 04:10:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 01:50:28.293224
- Title: Nearly Dimension-Independent Sparse Linear Bandit over Small Action
Spaces via Best Subset Selection
- Title(参考訳): 最良サブセット選択による小アクション空間上のニア次元独立スパース線形帯域
- Authors: Yining Wang, Yi Chen, Ethan X. Fang, Zhaoran Wang and Runze Li
- Abstract要約: 本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。
この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。
本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
- 参考スコア(独自算出の注目度): 71.9765117768556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the stochastic contextual bandit problem under the high
dimensional linear model. We focus on the case where the action space is finite
and random, with each action associated with a randomly generated contextual
covariate. This setting finds essential applications such as personalized
recommendation, online advertisement, and personalized medicine. However, it is
very challenging as we need to balance exploration and exploitation. We propose
doubly growing epochs and estimating the parameter using the best subset
selection method, which is easy to implement in practice. This approach
achieves $ \tilde{\mathcal{O}}(s\sqrt{T})$ regret with high probability, which
is nearly independent in the ``ambient'' regression model dimension $d$. We
further attain a sharper $\tilde{\mathcal{O}}(\sqrt{sT})$ regret by using the
\textsc{SupLinUCB} framework and match the minimax lower bound of
low-dimensional linear stochastic bandit problems. Finally, we conduct
extensive numerical experiments to demonstrate the applicability and robustness
of our algorithms empirically.
- Abstract(参考訳): 我々は高次元線形モデルの下で確率的文脈帯域問題を考える。
アクション空間が有限かつランダムな場合と、各アクションがランダムに生成された文脈共変量と関連している場合に焦点を当てる。
この設定は、パーソナライズドレコメンデーション、オンライン広告、パーソナライズドメディシンといった必須のアプリケーションを見つける。
しかし、探索と搾取のバランスをとる必要があるため、非常に難しい。
そこで本研究では,実装が容易な最良部分集合選択法を用いて,2倍成長したエポックを推定する手法を提案する。
このアプローチは、$ \tilde{\mathcal{o}}(s\sqrt{t})$ regret を高い確率で達成する。
さらに、よりシャープな $\tilde{\mathcal{O}}(\sqrt{sT})$ regret を \textsc{SupLinUCB} フレームワークを用いて達成し、低次元線形確率的バンディット問題のミニマックス下界と一致する。
最後に,本アルゴリズムの適用性とロバスト性を示すために,広範な数値実験を行った。
関連論文リスト
- Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。
エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。
既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - PopArt: Efficient Sparse Regression and Experimental Design for Optimal
Sparse Linear Bandits [29.097522376094624]
そこで我々はPopArtと呼ばれる単純で効率的なスパース線形推定法を提案する。
我々は, 粗い線形バンディットアルゴリズムを導出し, 美術品の状態に対する後悔の上界の改善を享受する。
論文 参考訳(メタデータ) (2022-10-25T19:13:20Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - Exploration in Linear Bandits with Rich Action Sets and its Implications
for Inference [23.364534479492715]
期待行列の最小固有値は、アルゴリズムの累積後悔が$sqrtn)$であるときに、$Omega(sqrtn)として増加することを示す。
本研究は, 線形帯域におけるEmphmodel selectionとEmphclusteringの2つの実践シナリオに適用する。
論文 参考訳(メタデータ) (2022-07-23T20:25:07Z) - Minimax Optimal Quantization of Linear Models: Information-Theoretic
Limits and Efficient Algorithms [59.724977092582535]
測定から学習した線形モデルの定量化の問題を考える。
この設定の下では、ミニマックスリスクに対する情報理論の下限を導出する。
本稿では,2層ReLUニューラルネットワークに対して,提案手法と上界を拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-02-23T02:39:04Z) - Stochastic Linear Bandits with Protected Subspace [51.43660657268171]
線形目的関数を最適化するが、報酬は未知の部分空間にのみ得られる線形帯域問題の変種について検討する。
特に、各ラウンドでは、学習者は、目的または保護されたサブスペースを、アクションの選択とともにクエリするかどうかを選択する必要がある。
提案アルゴリズムはOFULの原理から導かれるもので,保護された空間を推定するためにクエリのいくつかを利用する。
論文 参考訳(メタデータ) (2020-11-02T14:59:39Z) - Online and Distribution-Free Robustness: Regression and Contextual
Bandits with Huber Contamination [29.85468294601847]
線形回帰と文脈的帯域幅という2つの古典的高次元オンライン学習問題を再考する。
従来の手法が失敗した場合にアルゴリズムが成功することを示す。
論文 参考訳(メタデータ) (2020-10-08T17:59:05Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。