論文の概要: Anytime Model Selection in Linear Bandits
- arxiv url: http://arxiv.org/abs/2307.12897v2
- Date: Sun, 12 Nov 2023 12:00:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 21:05:23.230946
- Title: Anytime Model Selection in Linear Bandits
- Title(参考訳): 線形バンディットにおける任意の時間モデル選択
- Authors: Parnian Kassraie, Nicolas Emmenegger, Andreas Krause, Aldo Pacchiano
- Abstract要約: ALEXPは,その後悔に対するM$への依存を指数関数的に改善した。
提案手法は,オンライン学習と高次元統計学の新たな関連性を確立するために,ラッソの時間的一様解析を利用する。
- 参考スコア(独自算出の注目度): 61.97047189786905
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Model selection in the context of bandit optimization is a challenging
problem, as it requires balancing exploration and exploitation not only for
action selection, but also for model selection. One natural approach is to rely
on online learning algorithms that treat different models as experts. Existing
methods, however, scale poorly ($\text{poly}M$) with the number of models $M$
in terms of their regret. Our key insight is that, for model selection in
linear bandits, we can emulate full-information feedback to the online learner
with a favorable bias-variance trade-off. This allows us to develop ALEXP,
which has an exponentially improved ($\log M$) dependence on $M$ for its
regret. ALEXP has anytime guarantees on its regret, and neither requires
knowledge of the horizon $n$, nor relies on an initial purely exploratory
stage. Our approach utilizes a novel time-uniform analysis of the Lasso,
establishing a new connection between online learning and high-dimensional
statistics.
- Abstract(参考訳): バンディット最適化の文脈におけるモデル選択は、行動選択だけでなく、モデル選択にも探索と利用のバランスをとる必要があるため、難しい問題である。
自然なアプローチの1つは、異なるモデルを専門家として扱うオンライン学習アルゴリズムに依存することだ。
しかし、既存のメソッドは、残念な点から言えば、M$のモデル数であまりスケールしない(\text{poly}M$)。
我々の重要な洞察は、線形帯域におけるモデル選択において、オンライン学習者への完全な情報フィードバックを好ましいバイアス分散トレードオフでエミュレートできるということです。
ALEXPは、その後悔のために$M$に対する指数関数的に改善された($\log M$)依存を持つ。
alexpはその後悔をいつでも保証し、horizon $n$の知識も必要とせず、最初の純粋に探索的な段階も必要としない。
本手法はラッソの新たな時間一様解析を応用し,オンライン学習と高次元統計の新たな関連性を確立した。
関連論文リスト
- Which LLM to Play? Convergence-Aware Online Model Selection with
Time-Increasing Bandits [43.65904435249823]
本稿では,モデルの性能向上を効果的に予測する帯域幅増加アルゴリズムTI-UCBを提案する。
本研究は,より効率的かつ経済的なモデル選択のために,増大する収束パターンを活用することの重要性を強調した。
論文 参考訳(メタデータ) (2024-03-11T23:52:46Z) - Universal and data-adaptive algorithms for model selection in linear
contextual bandits [52.47796554359261]
モデル選択の最も単純な非自明な例を考える: 単純な多重武装バンディット問題と線形文脈バンディット問題とを区別する。
データ適応的な方法で探索する新しいアルゴリズムを導入し、$mathcalO(dalpha T1- alpha)$という形式の保証を提供する。
我々のアプローチは、いくつかの仮定の下で、ネストされた線形文脈包帯のモデル選択に拡張する。
論文 参考訳(メタデータ) (2021-11-08T18:05:35Z) - Near-Optimal Reward-Free Exploration for Linear Mixture MDPs with
Plug-in Solver [32.212146650873194]
報酬信号のガイダンスを使わずにRLモデルを効率的に学習するためのアプローチを提案する。
特に、私たちは、探索フェーズにおけるモデル学習に集中するプラグインソルバアプローチを採用しています。
新たな探索アルゴリズムを確立することで,プラグインアプローチは環境との相互作用を$tildeO(d2H3/epsilon2)$とすることでモデルを学習することを示す。
論文 参考訳(メタデータ) (2021-10-07T07:59:50Z) - Towards Costless Model Selection in Contextual Bandits: A Bias-Variance
Perspective [7.318831153179727]
文脈的包帯設定における累積的後悔最小化のための同様の保証の実現可能性について検討した。
提案アルゴリズムは, 新たな不特定性テストに基づいており, モデル選択による報酬推定の利点を実証する。
論文 参考訳(メタデータ) (2021-06-11T16:08:03Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z) - Exploring Bayesian Deep Learning for Urgent Instructor Intervention Need
in MOOC Forums [58.221459787471254]
大規模なオープンオンラインコース(MOOC)は、その柔軟性のおかげで、eラーニングの一般的な選択肢となっている。
多くの学習者とその多様な背景から、リアルタイムサポートの提供は課税されている。
MOOCインストラクターの大量の投稿と高い作業負荷により、インストラクターが介入を必要とするすべての学習者を識別できる可能性は低いです。
本稿では,モンテカルロドロップアウトと変分推論という2つの手法を用いて,学習者によるテキスト投稿のベイジアン深層学習を初めて検討する。
論文 参考訳(メタデータ) (2021-04-26T15:12:13Z) - Non-Stationary Latent Bandits [68.21614490603758]
非定常ユーザに対して高速なパーソナライズのための実践的アプローチを提案する。
鍵となる考え方は、この問題を潜在バンディットとみなすことであり、ユーザ行動のプロトタイプモデルがオフラインで学習され、ユーザの潜伏状態がオンラインで推論される。
我々は,非定常潜伏帯域における後悔最小化のためのトンプソンサンプリングアルゴリズムを提案し,それらを解析し,実世界のデータセット上で評価する。
論文 参考訳(メタデータ) (2020-12-01T10:31:57Z) - Generative Temporal Difference Learning for Infinite-Horizon Prediction [101.59882753763888]
我々は、無限確率的地平線を持つ環境力学の予測モデルである$gamma$-modelを導入する。
トレーニングタイムとテストタイムの複合的なエラーの間には、そのトレーニングが避けられないトレードオフを反映しているかについて議論する。
論文 参考訳(メタデータ) (2020-10-27T17:54:12Z) - Linear Bandits with Limited Adaptivity and Learning Distributional
Optimal Design [12.465883735626605]
オンライン能動学習の中心的課題である線形文脈帯域に対する適応性制約の影響について検討する。
文脈ベクトルが$d$次元線形文脈包帯で逆選択された場合、学習者はミニマックス最適後悔を達成するために$O(d log d log T)$ポリシースイッチが必要であることを示す。
論文 参考訳(メタデータ) (2020-07-04T01:34:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。