論文の概要: Leveraging Offline Data in Linear Latent Bandits
- arxiv url: http://arxiv.org/abs/2405.17324v1
- Date: Mon, 27 May 2024 16:23:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-05-28 14:33:59.920144
- Title: Leveraging Offline Data in Linear Latent Bandits
- Title(参考訳): 線形潜在帯域におけるオフラインデータの活用
- Authors: Chinmaya Kausik, Kevin Tan, Ambuj Tewari,
- Abstract要約: 我々は、$textitevery$ exchangeable and coherent stateless decision process is a latent bandit.
本稿では,この部分空間を短いオフライン軌道から保証付きで学習する方法を提案する。
LOCAL-UCBとProBALL-UCBの2つの方法を提案する。
- 参考スコア(独自算出の注目度): 16.006405951752903
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequential decision-making domains such as recommender systems, healthcare and education often have unobserved heterogeneity in the population that can be modeled using latent bandits $-$ a framework where an unobserved latent state determines the model for a trajectory. While the latent bandit framework is compelling, the extent of its generality is unclear. We first address this by establishing a de Finetti theorem for decision processes, and show that $\textit{every}$ exchangeable and coherent stateless decision process is a latent bandit. The latent bandit framework lends itself particularly well to online learning with offline datasets, a problem of growing interest in sequential decision-making. One can leverage offline latent bandit data to learn a complex model for each latent state, so that an agent can simply learn the latent state online to act optimally. We focus on a linear model for a latent bandit with $d_A$-dimensional actions, where the latent states lie in an unknown $d_K$-dimensional subspace for $d_K \ll d_A$. We present SOLD, a novel principled method to learn this subspace from short offline trajectories with guarantees. We then provide two methods to leverage this subspace online: LOCAL-UCB and ProBALL-UCB. We demonstrate that LOCAL-UCB enjoys $\tilde O(\min(d_A\sqrt{T}, d_K\sqrt{T}(1+\sqrt{d_AT/d_KN})))$ regret guarantees, where the effective dimension is lower when the size $N$ of the offline dataset is larger. ProBALL-UCB enjoys a slightly weaker guarantee, but is more practical and computationally efficient. Finally, we establish the efficacy of our methods using experiments on both synthetic data and real-life movie recommendation data from MovieLens.
- Abstract(参考訳): 推薦システム、医療、教育といった一連の意思決定領域は、しばしば、非観測潜在状態が軌道のモデルを決定づける枠組みである、潜在帯域でモデル化できる人口の不均一性を持つ。
潜在バンディットフレームワークは説得力があるが、その一般化の程度は不明確である。
まず、決定過程に対するデ・フィネッティの定理を定め、$\textit{every}$交換可能でコヒーレントなステートレスな決定過程が遅延バンディットであることを示す。
遅延バンディットフレームワークは、シーケンシャルな意思決定への関心が高まっている問題である、オフラインデータセットによるオンライン学習に特に適している。
オフラインの潜伏バンドデータを利用して各潜伏状態の複雑なモデルを学ぶことができ、エージェントはオンラインで潜伏状態を学び、最適に振る舞うことができる。
遅延状態は未知の$d_K$-dimensional subspace for $d_K \ll d_A$である。
我々は、この部分空間を短いオフライン軌道から保証付きで学習する新しい原理的手法であるSOLDを提案する。
次に、このサブスペースをオンラインで活用する2つの方法、LOCAL-UCBとProBALL-UCBを提供する。
LOCAL-UCB は $\tilde O(\min(d_A\sqrt{T}, d_K\sqrt{T}(1+\sqrt{d_AT/d_KN})) を楽しめます。
ProBALL-UCBは若干保証が弱いが、より実用的で計算効率が良い。
最後に,MovieLensの合成データと実写映画レコメンデーションデータの両方を用いて,本手法の有効性を確立した。
関連論文リスト
- Regret minimization in Linear Bandits with offline data via extended D-optimal exploration [25.533340168328564]
本稿では, 線形帯域におけるオンライン後悔の問題を, 基礎となる帯域モデルから事前観測(オフラインデータ)にアクセスして考察する。
オフライン・オンライン・フェイズド・エミネーション(OOPE)というアルゴリズムは,オフラインデータを効果的に組み込んでオンラインの後悔を軽減する。
論文 参考訳(メタデータ) (2025-08-11T19:14:56Z) - Online Learning with Probing for Sequential User-Centric Selection [8.45399786458738]
そこで,学習者がまず武器のサブセットを探索して資源や報酬の副次情報を取得し,その後に$K$プレイを$M$アームに割り当てる。
既知の分布を持つオフライン設定に対しては、定数係数近似により $zeta = (e-1)/ (2e-1)$ が保証される。
未知の分布を持つオンライン・セッティングについては、OLPA(Bandit algorithm)を紹介します。
論文 参考訳(メタデータ) (2025-07-27T03:32:51Z) - Regret Minimization and Statistical Inference in Online Decision Making with High-dimensional Covariates [7.21848268647674]
我々は、決定のための$varepsilon$-greedybanditアルゴリズムと、疎帯域パラメータを推定するためのハードしきい値アルゴリズムを統合する。
マージン条件下では、我々の手法は、$O(T1/2)$ regret あるいは古典的な$O(T1/2)$-consistent推論のいずれかを達成する。
論文 参考訳(メタデータ) (2024-11-10T01:47:11Z) - Sparse Linear Bandits with Blocking Constraints [22.01704171400845]
データ・ポーア・システマにおける高次元スパース線形包帯問題について検討する。
線形モデルに対するラッソ推定器の新たなオフライン統計的保証を示す。
本稿では,最小限のコストで最適空間パラメータ$k$の知識を必要としない相関に基づくメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T01:42:03Z) - Indexed Minimum Empirical Divergence-Based Algorithms for Linear Bandits [55.938644481736446]
Indexed Minimum Empirical Divergence (IMED)は、マルチアームバンディット問題に対する非常に効果的なアプローチである。
UCBベースのアルゴリズムとトンプソンサンプリングを実証的に上回ることが観察されている。
我々は、LinIMEDアルゴリズムのファミリーと呼ぶIMEDアルゴリズムの新しい線形バージョンを提案する。
論文 参考訳(メタデータ) (2024-05-24T04:11:58Z) - When is Agnostic Reinforcement Learning Statistically Tractable? [76.1408672715773]
エンフスパンニング容量と呼ばれる新しい複雑性測度は、設定された$Pi$にのみ依存し、MDPダイナミクスとは独立である。
我々は、学習するためにスーパーポリノミカルな数のサンプルを必要とする制限付きスパンリング能力を持つポリシークラス$Pi$が存在することを示した。
これにより、生成的アクセスとオンラインアクセスモデルの間の学習可能性の驚くほどの分離が明らかになる。
論文 参考訳(メタデータ) (2023-10-09T19:40:54Z) - Anytime Model Selection in Linear Bandits [61.97047189786905]
ALEXPは,その後悔に対するM$への依存を指数関数的に改善した。
提案手法は,オンライン学習と高次元統計学の新たな関連性を確立するために,ラッソの時間的一様解析を利用する。
論文 参考訳(メタデータ) (2023-07-24T15:44:30Z) - Optimal Best-Arm Identification in Bandits with Access to Offline Data [27.365122983434887]
オフラインデータとオンライン学習を組み合わせることを検討する。
差分$が小さい場合、サンプルの複雑さに基づいて低い境界に一致するアルゴリズムを開発する。
我々のアルゴリズムは, サンプル当たりの平均取得コストが$tildeO(K)$で計算的に効率的であり, 下界問題の最適条件の注意深い評価に頼っている。
論文 参考訳(メタデータ) (2023-06-15T11:12:35Z) - On the Interplay Between Misspecification and Sub-optimality Gap in
Linear Contextual Bandits [76.2262680277608]
本研究では,線形関数クラスによって期待される報酬関数を近似できるような,不特定条件下での線形文脈帯域について検討する。
このアルゴリズムは, 対数的因子に比例した設定において, ギャップ依存の残差が$tilde O (d2/Delta)$と同じであることを示す。
論文 参考訳(メタデータ) (2023-03-16T15:24:29Z) - Provably Efficient Neural Offline Reinforcement Learning via Perturbed
Rewards [33.88533898709351]
VIPeRは、ランダム化された値関数のアイデアと悲観主義の原理を一致させる。
オフラインデータを複数回摂動することで、暗黙的に悲観性を得る。
ニューラルネットワーク関数近似を用いた一般的なマルコフ決定過程(MDP)において、証明可能かつ計算的に効率的である。
論文 参考訳(メタデータ) (2023-02-24T17:52:12Z) - On Instance-Dependent Bounds for Offline Reinforcement Learning with
Linear Function Approximation [80.86358123230757]
本稿では,Bootstrapped and Constrained Pessimistic Value Iteration (BCP-VI) というアルゴリズムを提案する。
部分的なデータカバレッジの仮定の下で、BCP-VI は最適な Q-値関数に正のギャップがあるときに、オフライン RL に対して $tildemathcalO(frac1K)$ の高速レートを得る。
これらは、アダプティブデータからの線形関数近似を持つオフラインRLに対してそれぞれ、最初の$tildemathcalO(frac1K)$boundと絶対零部分最適境界である。
論文 参考訳(メタデータ) (2022-11-23T18:50:44Z) - Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes [99.26864533035454]
半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。
本稿では,UnderlineProxy変数 underlinePessimistic UnderlinePolicy UnderlineOptimization (textttP3O)アルゴリズムを提案する。
textttP3Oは、確立されたデータセットを持つPOMDPのための証明可能な最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-05-26T19:13:55Z) - Efficient Online Bayesian Inference for Neural Bandits [10.353171848879187]
ベイジアンニューラルネットワークにおけるオンライン(逐次)推論のための新しいアルゴリズムを提案する。
キーとなる考え方は、拡張カルマンフィルタとパラメータの部分空間を組み合わせることである。
We show good results on the "Deep Bayesian Bandit Showdown" benchmark, as MNIST and a recommender system。
論文 参考訳(メタデータ) (2021-12-01T00:29:51Z) - Online Sparse Reinforcement Learning [60.44832065993122]
固定地平線, スパース線形決定過程(MDP)におけるオンライン強化学習の難しさについて検討する。
この場合、よく条件付きデータを収集するポリシーが存在するとしても、線形後悔は一般的に避けられないことを示す。
このことは、大規模な行動において、学習の難しさは、優れた探索政策を見つけるのが困難であることに起因していることを示している。
論文 参考訳(メタデータ) (2020-11-08T16:47:42Z) - Restless-UCB, an Efficient and Low-complexity Algorithm for Online
Restless Bandits [61.490254407420906]
我々は、各腕の状態がマルコフ連鎖に従って進化するオンラインレス・バンディット問題について研究する。
本研究では,探索研究の枠組みに従う学習方針であるReestless-UCBを提案する。
論文 参考訳(メタデータ) (2020-11-05T05:16:04Z) - Impact of Representation Learning in Linear Bandits [83.17684841392754]
本研究では,表現学習が帯域幅問題の効率性を向上させる方法について検討する。
我々は,$widetildeO(TsqrtkN + sqrtdkNT)$ regretを達成する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-13T16:35:30Z) - Nearly Dimension-Independent Sparse Linear Bandit over Small Action
Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。
この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。
本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-09-04T04:10:39Z) - Latent Bandits Revisited [55.88616813182679]
潜伏盗賊問題は、学習エージェントが未知の離散潜伏状態に条件付けられた腕の報酬分布を知知する問題である。
本稿では, 上位信頼境界(UCB)とトンプソンサンプリング(Thompson sample)の両方に基づいて, この設定のための一般的なアルゴリズムを提案する。
我々はアルゴリズムの統一的な理論的解析を行い、遅延状態の数がアクションよりも小さい場合、古典的なバンディットポリシーよりも後悔度が低い。
論文 参考訳(メタデータ) (2020-06-15T19:24:02Z) - An Efficient Algorithm For Generalized Linear Bandit: Online Stochastic
Gradient Descent and Thompson Sampling [83.48992319018147]
プレイヤーが過去の観測結果に基づいて逐次意思決定を行い、累積報酬を最大化する文脈的帯域幅問題を考える。
この問題を解決する自然な方法は、ステップごとの時間とメモリの複雑さを一定に抑えるために、オンライン勾配降下(SGD)を適用することである。
本研究では,オンラインSGDが一般化線形帯域問題に適用可能であることを示す。
過去の情報を活用するためにシングルステップのSGD更新を利用するSGD-TSアルゴリズムは、全時間複雑度で$tildeO(sqrtT)$ regretを達成する。
論文 参考訳(メタデータ) (2020-06-07T01:12:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。