論文の概要: Leveraging Offline Data in Linear Latent Contextual Bandits
- arxiv url: http://arxiv.org/abs/2405.17324v2
- Date: Tue, 02 Sep 2025 02:16:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:02.878898
- Title: Leveraging Offline Data in Linear Latent Contextual Bandits
- Title(参考訳): 線形潜在文脈帯域におけるオフラインデータの活用
- Authors: Chinmaya Kausik, Kevin Tan, Ambuj Tewari,
- Abstract要約: 我々は、数え切れないほど多くの潜伏状態を処理できるエンドツーエンドの潜伏包帯アルゴリズムを設計する。
このオフラインアルゴリズムの出力を利用してオンライン学習を高速化する2つのオンラインアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 27.272915631913175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leveraging offline data is an attractive way to accelerate online sequential decision-making. However, it is crucial to account for latent states in users or environments in the offline data, and latent bandits form a compelling model for doing so. In this light, we design end-to-end latent bandit algorithms capable of handing uncountably many latent states. We focus on a linear latent contextual bandit $-$ a linear bandit where each user has its own high-dimensional reward parameter in $\mathbb{R}^{d_A}$, but reward parameters across users lie in a low-rank latent subspace of dimension $d_K \ll d_A$. First, we provide an offline algorithm to learn this subspace with provable guarantees. We then present two online algorithms that utilize the output of this offline algorithm to accelerate online learning. The first enjoys $\tilde{O}(\min(d_A\sqrt{T}, d_K\sqrt{T}(1+\sqrt{d_AT/d_KN})))$ regret guarantees, so that the effective dimension is lower when the size $N$ of the offline dataset is larger. We prove a matching lower bound on regret, showing that our algorithm is minimax optimal. The second is a practical algorithm that enjoys only a slightly weaker guarantee, but is computationally efficient. We also establish the efficacy of our methods using experiments on both synthetic data and real-life movie recommendation data from MovieLens. Finally, we theoretically establish the generality of the latent bandit model by proving a de Finetti theorem for stateless decision processes.
- Abstract(参考訳): オフラインデータを活用することは、オンラインのシーケンシャルな意思決定を加速する魅力的な方法だ。
しかし、オフラインデータにおけるユーザや環境の潜伏状態を考慮することは極めて重要であり、潜伏帯域はそれを行う上で魅力的なモデルを形成する。
この光では、無数に多くの潜伏状態を処理できるエンドツーエンドの潜伏包帯アルゴリズムを設計する。
ここでは,各ユーザがそれぞれ高次元の報酬パラメータを$\mathbb{R}^{d_A}$に持つ線形潜在コンテキストバンドイット$-$に注目するが,ユーザ間の報酬パラメータは,次元$d_K \ll d_A$の低ランク潜在サブ空間にある。
まず、証明可能な保証でこの部分空間を学習するためのオフラインアルゴリズムを提供する。
次に、このオフラインアルゴリズムの出力を利用してオンライン学習を高速化する2つのオンラインアルゴリズムを提案する。
1つは $\tilde{O}(\min(d_A\sqrt{T}, d_K\sqrt{T}(1+\sqrt{d_AT/d_KN})) で、オフラインデータセットの$N$が大きければ有効次元が小さくなる。
我々は,最小限のアルゴリズムが最適であることを示す。
2つ目は、わずかに弱い保証しか持たない実用的アルゴリズムであるが、計算的に効率的である。
また,MovieLensの合成データと実写映画レコメンデーションデータの両方を用いて,本手法の有効性を確立した。
最後に、ステートレス決定過程に対するデ・フィネッティの定理を証明し、潜在バンディットモデルの一般性を理論的に確立する。
関連論文リスト
- Online Learning with Probing for Sequential User-Centric Selection [8.45399786458738]
そこで,学習者がまず武器のサブセットを探索して資源や報酬の副次情報を取得し,その後に$K$プレイを$M$アームに割り当てる。
既知の分布を持つオフライン設定に対しては、定数係数近似により $zeta = (e-1)/ (2e-1)$ が保証される。
未知の分布を持つオンライン・セッティングについては、OLPA(Bandit algorithm)を紹介します。
論文 参考訳(メタデータ) (2025-07-27T03:32:51Z) - Regret Minimization and Statistical Inference in Online Decision Making with High-dimensional Covariates [7.21848268647674]
我々は、決定のための$varepsilon$-greedybanditアルゴリズムと、疎帯域パラメータを推定するためのハードしきい値アルゴリズムを統合する。
マージン条件下では、我々の手法は、$O(T1/2)$ regret あるいは古典的な$O(T1/2)$-consistent推論のいずれかを達成する。
論文 参考訳(メタデータ) (2024-11-10T01:47:11Z) - Sparse Linear Bandits with Blocking Constraints [22.01704171400845]
データ・ポーア・システマにおける高次元スパース線形包帯問題について検討する。
線形モデルに対するラッソ推定器の新たなオフライン統計的保証を示す。
本稿では,最小限のコストで最適空間パラメータ$k$の知識を必要としない相関に基づくメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T01:42:03Z) - When is Agnostic Reinforcement Learning Statistically Tractable? [76.1408672715773]
エンフスパンニング容量と呼ばれる新しい複雑性測度は、設定された$Pi$にのみ依存し、MDPダイナミクスとは独立である。
我々は、学習するためにスーパーポリノミカルな数のサンプルを必要とする制限付きスパンリング能力を持つポリシークラス$Pi$が存在することを示した。
これにより、生成的アクセスとオンラインアクセスモデルの間の学習可能性の驚くほどの分離が明らかになる。
論文 参考訳(メタデータ) (2023-10-09T19:40:54Z) - Anytime Model Selection in Linear Bandits [61.97047189786905]
ALEXPは,その後悔に対するM$への依存を指数関数的に改善した。
提案手法は,オンライン学習と高次元統計学の新たな関連性を確立するために,ラッソの時間的一様解析を利用する。
論文 参考訳(メタデータ) (2023-07-24T15:44:30Z) - Optimal Best-Arm Identification in Bandits with Access to Offline Data [27.365122983434887]
オフラインデータとオンライン学習を組み合わせることを検討する。
差分$が小さい場合、サンプルの複雑さに基づいて低い境界に一致するアルゴリズムを開発する。
我々のアルゴリズムは, サンプル当たりの平均取得コストが$tildeO(K)$で計算的に効率的であり, 下界問題の最適条件の注意深い評価に頼っている。
論文 参考訳(メタデータ) (2023-06-15T11:12:35Z) - Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes [99.26864533035454]
半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。
本稿では,UnderlineProxy変数 underlinePessimistic UnderlinePolicy UnderlineOptimization (textttP3O)アルゴリズムを提案する。
textttP3Oは、確立されたデータセットを持つPOMDPのための証明可能な最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-05-26T19:13:55Z) - Online Sparse Reinforcement Learning [60.44832065993122]
固定地平線, スパース線形決定過程(MDP)におけるオンライン強化学習の難しさについて検討する。
この場合、よく条件付きデータを収集するポリシーが存在するとしても、線形後悔は一般的に避けられないことを示す。
このことは、大規模な行動において、学習の難しさは、優れた探索政策を見つけるのが困難であることに起因していることを示している。
論文 参考訳(メタデータ) (2020-11-08T16:47:42Z) - Restless-UCB, an Efficient and Low-complexity Algorithm for Online
Restless Bandits [61.490254407420906]
我々は、各腕の状態がマルコフ連鎖に従って進化するオンラインレス・バンディット問題について研究する。
本研究では,探索研究の枠組みに従う学習方針であるReestless-UCBを提案する。
論文 参考訳(メタデータ) (2020-11-05T05:16:04Z) - Nearly Dimension-Independent Sparse Linear Bandit over Small Action
Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。
この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。
本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-09-04T04:10:39Z) - Latent Bandits Revisited [55.88616813182679]
潜伏盗賊問題は、学習エージェントが未知の離散潜伏状態に条件付けられた腕の報酬分布を知知する問題である。
本稿では, 上位信頼境界(UCB)とトンプソンサンプリング(Thompson sample)の両方に基づいて, この設定のための一般的なアルゴリズムを提案する。
我々はアルゴリズムの統一的な理論的解析を行い、遅延状態の数がアクションよりも小さい場合、古典的なバンディットポリシーよりも後悔度が低い。
論文 参考訳(メタデータ) (2020-06-15T19:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。