論文の概要: Parameter and Feature Selection in Stochastic Linear Bandits
- arxiv url: http://arxiv.org/abs/2106.05378v1
- Date: Wed, 9 Jun 2021 20:37:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-13 00:49:45.741329
- Title: Parameter and Feature Selection in Stochastic Linear Bandits
- Title(参考訳): 確率線形帯域のパラメータと特徴選択
- Authors: Ahmadreza Moradipari, Yasin Abbasi-Yadkori, Mahnoosh Alizadeh,
Mohammad Ghavamzadeh
- Abstract要約: 線形帯域(LB)における2つのモデル選択設定について検討する。
最初の設定では、LB問題の報酬パラメータは、$mathbb Rd$の重なり合うボールとして表される$M$モデルから任意に選択される。
2つ目の設定では、LB問題の期待される報酬は、少なくとも$M$特徴写像(モデル)の1つの線形スパンにある。
- 参考スコア(独自算出の注目度): 38.909757749493934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study two model selection settings in stochastic linear bandits (LB). In
the first setting, the reward parameter of the LB problem is arbitrarily
selected from $M$ models represented as (possibly) overlapping balls in
$\mathbb R^d$. However, the agent only has access to misspecified models, i.e.,
estimates of the centers and radii of the balls. We refer to this setting as
parameter selection. In the second setting, which we refer to as feature
selection, the expected reward of the LB problem is in the linear span of at
least one of $M$ feature maps (models). For each setting, we develop and
analyze an algorithm that is based on a reduction from bandits to
full-information problems. This allows us to obtain regret bounds that are not
worse (up to a $\sqrt{\log M}$ factor) than the case where the true model is
known. Our parameter selection algorithm is OFUL-style and the one for feature
selection is based on the SquareCB algorithm. We also show that the regret of
our parameter selection algorithm scales logarithmically with model
misspecification.
- Abstract(参考訳): 確率線形バンディット (lb) におけるモデル選択設定について検討した。
最初の設定では、LB問題の報酬パラメータは、$\mathbb R^d$の重なり合うボールとして表される$M$モデルから任意に選択される。
しかし、エージェントは不特定モデル(すなわちボールの中心と半径の推定値)にしかアクセスできない。
この設定をパラメータ選択と呼ぶ。
第2の設定では、機能選択 (feature selection) と呼ばれ、lb問題の期待される報酬は、少なくとも$m$フィーチャマップ (models) の少なくとも1つの線形スパンにある。
各設定に対して,帯域幅から全情報問題への削減に基づくアルゴリズムを開発し,解析する。
これにより、真のモデルが知られている場合よりも悪くはない($\sqrt{\log m}$ factor まで)後悔の限界を得ることができる。
パラメータ選択アルゴリズムはoful型であり,特徴選択アルゴリズムはsquarecbアルゴリズムに基づいている。
また,パラメータ選択アルゴリズムの後悔は,モデルの誤特定と対数的にスケールすることを示した。
関連論文リスト
- Online Clustering of Bandits with Misspecified User Models [42.56440072468658]
コンテキスト線形バンディット(Contextual linear bandit)は、与えられた腕の特徴を学習エージェントが各ラウンドで選択し、長期の累積報酬を最大化するオンライン学習問題である。
バンディットのクラスタリング(CB)と呼ばれる一連の研究は、ユーザの好みに対する協調効果を利用しており、古典的な線形バンディットアルゴリズムよりも大幅に改善されている。
本稿では,不特定ユーザモデル (CBMUM) による盗賊のクラスタリングに関する重要な問題を初めて提示する。
モデル誤特定による不正確なユーザの選好推定と誤クラスタリングを両立できる頑健なCBアルゴリズムRCLUMBとRCLUMBを考案した。
論文 参考訳(メタデータ) (2023-10-04T10:40:50Z) - Anytime Model Selection in Linear Bandits [61.97047189786905]
ALEXPは,その後悔に対するM$への依存を指数関数的に改善した。
提案手法は,オンライン学習と高次元統計学の新たな関連性を確立するために,ラッソの時間的一様解析を利用する。
論文 参考訳(メタデータ) (2023-07-24T15:44:30Z) - Best Arm Identification for Stochastic Rising Bandits [84.55453174601826]
SRB(Rising Bandits)は、選択される度に選択肢の期待される報酬が増加する、シーケンシャルな意思決定の問題をモデル化する。
本稿では,SRBの固定予算ベストアーム識別(BAI)問題に焦点をあてる。
R-UCBE と R-SR の2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-15T08:01:37Z) - Online Recommendations for Agents with Discounted Adaptive Preferences [17.501559059079806]
エージェントの選好が過去の選択の関数として進化するバンディットレコメンデーション問題。
本稿では,$textitentire$ item simplexに対して,効率的なサブ線形後悔を求めるアルゴリズムを示す。
論文 参考訳(メタデータ) (2023-02-12T22:04:27Z) - Model Selection in Reinforcement Learning with General Function
Approximations [10.97775622611135]
強化学習環境におけるモデル選択の検討 - マルチアームバンド(MAB)とマルコフ決定プロセス(MDP)-
モデル選択フレームワークでは、$mathcalF$と$mathcalM$で表される関数クラスを知らない。
適応アルゴリズムの累積的後悔は、正しい関数クラスを知っているオラクルの後悔と一致することを示す。
論文 参考訳(メタデータ) (2022-07-06T21:52:07Z) - Minimax Optimal Quantization of Linear Models: Information-Theoretic
Limits and Efficient Algorithms [59.724977092582535]
測定から学習した線形モデルの定量化の問題を考える。
この設定の下では、ミニマックスリスクに対する情報理論の下限を導出する。
本稿では,2層ReLUニューラルネットワークに対して,提案手法と上界を拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-02-23T02:39:04Z) - Universal and data-adaptive algorithms for model selection in linear
contextual bandits [52.47796554359261]
モデル選択の最も単純な非自明な例を考える: 単純な多重武装バンディット問題と線形文脈バンディット問題とを区別する。
データ適応的な方法で探索する新しいアルゴリズムを導入し、$mathcalO(dalpha T1- alpha)$という形式の保証を提供する。
我々のアプローチは、いくつかの仮定の下で、ネストされた線形文脈包帯のモデル選択に拡張する。
論文 参考訳(メタデータ) (2021-11-08T18:05:35Z) - Learning to Rank under Multinomial Logit Choice [6.929312022493406]
コンテンツの最適順序付けを学ぶことは、ウェブサイト設計において重要な課題である。
本稿では,この問題に対する$Omega(sqrtJT)$lowbound,$tildeO(sqrtJT)$ upperbound on the regret of the UCBアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-07T16:15:12Z) - Nearly Dimension-Independent Sparse Linear Bandit over Small Action
Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。
この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。
本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-09-04T04:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。