論文の概要: Active Learning for Stochastic Contextual Linear Bandits
- arxiv url: http://arxiv.org/abs/2605.24803v1
- Date: Sun, 24 May 2026 01:25:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.453457
- Title: Active Learning for Stochastic Contextual Linear Bandits
- Title(参考訳): 確率的文脈線形帯域のアクティブラーニング
- Authors: Emma Brunskill, Ishani Karmarkar, Zhaoqi Li,
- Abstract要約: 文脈線形帯域の鍵となる目標は、ほぼ最適ポリシーを効率的に学習することである。
本稿では,コンテキスト-アクション対の報酬を戦略的にサンプリングすることで,ほぼ最適ポリシーを学習するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 15.971492100126063
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A key goal in stochastic contextual linear bandits is to efficiently learn a near-optimal policy. Prior algorithms for this problem learn a policy by strategically sampling actions but naively (passively) sampling contexts from the underlying context distribution. However, in many practical scenarios -- including online content recommendation, survey research, and clinical trials -- practitioners can actively sample or recruit contexts based on prior knowledge of the context distribution. Despite this potential for active learning, the role of strategic context sampling in stochastic contextual linear bandits is underexplored. We propose an algorithm that learns a near-optimal policy by strategically sampling rewards of context-action pairs. We prove instance-dependent theoretical guarantees demonstrating that our active context sampling strategy can improve over the minimax rate by up to a factor of $\sqrt{d}$, where $d$ is the linear dimension. We show empirically that our algorithm reduces the number of samples needed to learn a near-optimal policy, in tasks such as warfarin dose prediction and joke recommendation.
- Abstract(参考訳): 確率的文脈線形帯域の鍵となる目標は、ほぼ最適ポリシーを効率的に学習することである。
この問題の先行アルゴリズムは、戦略的にアクションをサンプリングすることでポリシーを学習するが、根底にあるコンテキスト分布から自然に(パッシブに)コンテキストをサンプリングする。
しかし、オンラインコンテンツレコメンデーション、調査研究、臨床試験など、多くの実践シナリオにおいて、実践者は文脈分布の事前の知識に基づいて、積極的にコンテキストをサンプリングまたは採用することができる。
このような積極的学習の可能性にもかかわらず、確率的文脈線形帯域における戦略的文脈サンプリングの役割は過小評価されている。
本稿では,コンテキスト-アクション対の報酬を戦略的にサンプリングすることで,ほぼ最適ポリシーを学習するアルゴリズムを提案する。
我々は、我々のアクティブコンテキストサンプリング戦略がミニマックスレートよりも最大$\sqrt{d}$、$d$が線型次元であることを証明した、インスタンス依存理論的な保証を証明した。
ウォーファリン線量予測やジョーク推薦といったタスクにおいて,本アルゴリズムが準最適政策の学習に必要なサンプル数を減少させることを示す。
関連論文リスト
- Statistical Analysis of Policy Space Compression Problem [54.1754937830779]
政策探索手法は強化学習において重要であり、継続的な状態反応と部分的に観察可能な問題に対処するための枠組みを提供する。
政策圧縮による政策空間の削減は、学習プロセスを加速するための強力で報酬のないアプローチとして現れます。
この手法は方針空間をより小さく代表的な集合に凝縮し、元の効果のほとんどを維持している。
論文 参考訳(メタデータ) (2024-11-15T02:46:55Z) - Representation-Driven Reinforcement Learning [57.44609759155611]
強化学習のための表現駆動型フレームワークを提案する。
期待値の見積もりとしてポリシーを表現することにより、我々は、探索と搾取を導くために、文脈的盗賊の手法を活用する。
このフレームワークの有効性を,進化的および政策的勾配に基づくアプローチに適用することによって実証する。
論文 参考訳(メタデータ) (2023-05-31T14:59:12Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Design of Experiments for Stochastic Contextual Linear Bandits [47.804797753836894]
線形文脈帯域設定では、取得されたデータに反応するポリシーで探索するためのいくつかのミニマックス手順が存在する。
我々は、最適に近いポリシーを抽出できる優れたデータセットを収集するための単一のポリシーを設計する。
合成および実世界の両方のデータセットに関する数値実験と同様に理論的解析を行う。
論文 参考訳(メタデータ) (2021-07-21T07:25:37Z) - Double-Linear Thompson Sampling for Context-Attentive Bandits [27.786695164493562]
我々は、様々な実践的応用を動機とした、Context-Attentive Banditとして知られるオンライン学習フレームワークを分析・拡張する。
本研究では, 線形トンプソンサンプリング法に基づいて, コンテキストアテンティブ・トンプソンサンプリング(CATS)と呼ばれる新しいアルゴリズムを導出し, コンテキストアテンティブ・バンディット設定に適用する。
論文 参考訳(メタデータ) (2020-10-15T13:01:19Z) - Distributionally Robust Batch Contextual Bandits [20.667213458836734]
歴史的観測データを用いた政策学習は、広く応用されている重要な問題である。
既存の文献は、学習方針が展開される将来の環境が過去の環境と同じである、という決定的な前提に基づいている。
本稿では、この仮定を引き上げ、不完全な観測データを用いて、分布的に堅牢なポリシーを学習することを目的とする。
論文 参考訳(メタデータ) (2020-06-10T03:11:40Z) - Meta-learning with Stochastic Linear Bandits [120.43000970418939]
我々は、よく知られたOFULアルゴリズムの正規化バージョンを実装するバンディットアルゴリズムのクラスを考える。
我々は,タスク数の増加とタスク分散の分散が小さくなると,タスクを個別に学習する上で,我々の戦略が大きな優位性を持つことを理論的および実験的に示す。
論文 参考訳(メタデータ) (2020-05-18T08:41:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。