論文の概要: PAC-Bayesian Offline Contextual Bandits With Guarantees
- arxiv url: http://arxiv.org/abs/2210.13132v2
- Date: Sat, 27 May 2023 07:30:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 03:12:41.214108
- Title: PAC-Bayesian Offline Contextual Bandits With Guarantees
- Title(参考訳): PAC-Bayesianのオフライン帯域と保証者
- Authors: Otmane Sakhi and Pierre Alquier and Nicolas Chopin
- Abstract要約: 本稿では,文脈的バンディットにおける非政治的学習に対する新たな原則的アプローチを提案する。
本稿では,新しい一般化境界を提案し,それらを最適化するトラクタブルアルゴリズムを提案する。
得られたバウンダリが競合他社よりも厳格であることを証明するとともに,ログポリシをオフラインで改善するために直接最適化することが可能である。
- 参考スコア(独自算出の注目度): 9.324642081509756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a new principled approach for off-policy learning in
contextual bandits. Unlike previous work, our approach does not derive learning
principles from intractable or loose bounds. We analyse the problem through the
PAC-Bayesian lens, interpreting policies as mixtures of decision rules. This
allows us to propose novel generalization bounds and provide tractable
algorithms to optimize them. We prove that the derived bounds are tighter than
their competitors, and can be optimized directly to confidently improve upon
the logging policy offline. Our approach learns policies with guarantees, uses
all available data and does not require tuning additional hyperparameters on
held-out sets. We demonstrate through extensive experiments the effectiveness
of our approach in providing performance guarantees in practical scenarios.
- Abstract(参考訳): 本稿では,コンテキストバンディットにおけるオフポリシー学習のための新しい原理的アプローチを提案する。
従来の作業とは異なり、私たちのアプローチは、難解なあるいは緩い境界から学習原則を導き出すものではない。
PAC-Bayesianレンズを用いて問題を解析し、ポリシーを決定規則の混合として解釈する。
これにより、新しい一般化境界を提案し、それらを最適化するための抽出可能なアルゴリズムを提供する。
得られたバウンダリが競合他社よりも厳密であることを証明するとともに,ログポリシをオフラインで確実に改善するために直接最適化することができる。
我々のアプローチは、保証付きポリシーを学習し、利用可能なすべてのデータを使用し、ホールドアウトセットに追加のハイパーパラメータをチューニングする必要がない。
実践的なシナリオで性能保証を提供する上でのアプローチの有効性を,広範な実験を通じて実証する。
関連論文リスト
- Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Trust-Region-Free Policy Optimization for Stochastic Policies [60.52463923712565]
本研究では,政策に対する信頼領域の制約が,基礎となるモノトニック改善の保証を損なうことなく,信頼領域のない制約によって安全に置き換えられることを示す。
我々は,TREFree(Trust-Region-Free Policy Optimization)と呼ばれるアルゴリズムを,信頼領域の制約が不要であるとして明示する。
論文 参考訳(メタデータ) (2023-02-15T23:10:06Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Constrained Policy Optimization for Controlled Self-Learning in
Conversational AI Systems [18.546197100318693]
ユーザ定義制約により、個々のドメインに対するきめ細かい探索ターゲットをサポートするスケーラブルなフレームワークを導入する。
この問題に対処するために,スケーラブルで実用的なメタ段階学習手法を提案する。
我々は、現実的な制約ベンチマークのセット上で、現実世界の会話型AIのデータを使用して広範な実験を行う。
論文 参考訳(メタデータ) (2022-09-17T23:44:13Z) - Optimistic Linear Support and Successor Features as a Basis for Optimal
Policy Transfer [7.970144204429356]
我々は、SFが凸被覆集合を形成するポリシーの集合を学習するために、最適化線形サポートアルゴリズムのSFベースの拡張を導入する。
この集合におけるポリシは、一般化されたポリシー改善を通じて組み合わせて、新しい線形表現可能なタスクに対して最適な振る舞いを構築することができることを示す。
論文 参考訳(メタデータ) (2022-06-22T19:00:08Z) - Conformal Off-Policy Prediction in Contextual Bandits [54.67508891852636]
コンフォーマルなオフ政治予測は、新しい目標ポリシーの下で、結果に対する信頼できる予測間隔を出力することができる。
理論上の有限サンプル保証は、標準的な文脈的バンディットの設定を超える追加の仮定をすることなく提供する。
論文 参考訳(メタデータ) (2022-06-09T10:39:33Z) - Bellman Residual Orthogonalization for Offline Reinforcement Learning [53.17258888552998]
我々はベルマン方程式を近似した新しい強化学習原理を導入し、その妥当性をテスト関数空間にのみ適用する。
我々は、この原則を利用して、政策外の評価のための信頼区間を導出するとともに、所定の政策クラス内の政策を最適化する。
論文 参考訳(メタデータ) (2022-03-24T01:04:17Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。