論文の概要: Design of Experiments for Stochastic Contextual Linear Bandits
- arxiv url: http://arxiv.org/abs/2107.09912v2
- Date: Thu, 22 Jul 2021 23:20:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-26 11:02:47.753853
- Title: Design of Experiments for Stochastic Contextual Linear Bandits
- Title(参考訳): 確率的文脈線形バンディット実験の設計
- Authors: Andrea Zanette, Kefan Dong, Jonathan Lee, Emma Brunskill
- Abstract要約: 線形文脈帯域設定では、取得されたデータに反応するポリシーで探索するためのいくつかのミニマックス手順が存在する。
我々は、最適に近いポリシーを抽出できる優れたデータセットを収集するための単一のポリシーを設計する。
合成および実世界の両方のデータセットに関する数値実験と同様に理論的解析を行う。
- 参考スコア(独自算出の注目度): 47.804797753836894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the stochastic linear contextual bandit setting there exist several
minimax procedures for exploration with policies that are reactive to the data
being acquired. In practice, there can be a significant engineering overhead to
deploy these algorithms, especially when the dataset is collected in a
distributed fashion or when a human in the loop is needed to implement a
different policy. Exploring with a single non-reactive policy is beneficial in
such cases. Assuming some batch contexts are available, we design a single
stochastic policy to collect a good dataset from which a near-optimal policy
can be extracted. We present a theoretical analysis as well as numerical
experiments on both synthetic and real-world datasets.
- Abstract(参考訳): 確率線形文脈帯域設定では、取得されたデータに反応するポリシーで探索するためのいくつかのミニマックス手順が存在する。
実際には、これらのアルゴリズムをデプロイする上で、特にデータセットが分散形式で収集された場合や、異なるポリシーを実装するためにループ内の人間が必要な場合には、大きなエンジニアリングオーバーヘッドが発生する可能性がある。
このような場合、単一の非反応ポリシーで探索することは有益である。
いくつかのバッチコンテキストが利用可能であると仮定すると、我々は、最適に近いポリシーを抽出できる優れたデータセットを収集するための単一の確率的ポリシーを設計する。
合成および実世界の両方のデータセットに関する数値実験と同様に理論的解析を行う。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Experiment Planning with Function Approximation [49.50254688629728]
本研究では,文脈的帯域幅問題における関数近似を用いた実験計画の問題点について検討する。
本稿では,関数近似に適合する2つの実験計画戦略を提案する。
そこで, 均一サンプリング器は, 動作数が少ない設定において, 競合最適性を達成できることを示す。
論文 参考訳(メタデータ) (2024-01-10T14:40:23Z) - $K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic
Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。
私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。
他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文 参考訳(メタデータ) (2023-06-07T23:55:12Z) - Importance Weighted Actor-Critic for Optimal Conservative Offline
Reinforcement Learning [23.222448307481073]
データカバレッジが不十分な複雑な環境でのオフライン強化学習(RL)のための新しい実践的アルゴリズムを提案する。
本アルゴリズムは,重要度抽出フレームワークとアクター批判パラダイムを併用する。
提案アルゴリズムの有効性を検証するため,理論的解析と実験結果の両方を提供する。
論文 参考訳(メタデータ) (2023-01-30T07:53:53Z) - SPEED: Experimental Design for Policy Evaluation in Linear
Heteroscedastic Bandits [13.02672341061555]
線形帯域における政策評価のための最適データ収集の問題について検討する。
まず,重み付き最小二乗推定値に対して,重み付き線形帯域設定で最適設計を定式化する。
次に、この定式化を使用して、データ収集中にアクション毎のサンプルの最適な割り当てを導出します。
論文 参考訳(メタデータ) (2023-01-29T04:33:13Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Distributionally Robust Batch Contextual Bandits [20.667213458836734]
歴史的観測データを用いた政策学習は、広く応用されている重要な問題である。
既存の文献は、学習方針が展開される将来の環境が過去の環境と同じである、という決定的な前提に基づいている。
本稿では、この仮定を引き上げ、不完全な観測データを用いて、分布的に堅牢なポリシーを学習することを目的とする。
論文 参考訳(メタデータ) (2020-06-10T03:11:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。