論文の概要: Exponential Smoothing for Off-Policy Learning
- arxiv url: http://arxiv.org/abs/2305.15877v2
- Date: Mon, 5 Jun 2023 13:05:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 00:48:15.875443
- Title: Exponential Smoothing for Off-Policy Learning
- Title(参考訳): オフポリシー学習のための指数的平滑化
- Authors: Imad Aouali, Victor-Emmanuel Brunel, David Rohde, Anna Korba
- Abstract要約: 逆相対性スコアリング(IPS)のための両側PAC-Bayes一般化を導出する。
バウンダリは、トラクタブルで、スケーラブルで、解釈可能で、学習証明書を提供する。
- 参考スコア(独自算出の注目度): 16.284314586358928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-policy learning (OPL) aims at finding improved policies from logged
bandit data, often by minimizing the inverse propensity scoring (IPS) estimator
of the risk. In this work, we investigate a smooth regularization for IPS, for
which we derive a two-sided PAC-Bayes generalization bound. The bound is
tractable, scalable, interpretable and provides learning certificates. In
particular, it is also valid for standard IPS without making the assumption
that the importance weights are bounded. We demonstrate the relevance of our
approach and its favorable performance through a set of learning tasks. Since
our bound holds for standard IPS, we are able to provide insight into when
regularizing IPS is useful. Namely, we identify cases where regularization
might not be needed. This goes against the belief that, in practice, clipped
IPS often enjoys favorable performance than standard IPS in OPL.
- Abstract(参考訳): off-policy learning (opl) は、リスクを推定するips(inverse propensity scoring)を最小化することで、ログ付きバンディットデータからより良いポリシーを見つけることを目的としている。
本研究では,ips に対する滑らかな正規化について検討し,二面pac-bayes一般化を導出する。
境界は扱いやすく、スケーラブルで、解釈可能で、学習証明書を提供する。
特に、重要度重み付けが有界であると仮定することなく、標準ipsでも有効である。
我々は,学習課題の組を通して,アプローチの妥当性と,その望ましい性能を示す。
標準IPSには限界があるので、IPSの正規化がいつ役に立つか、洞察することができます。
すなわち、正規化が不要な場合を特定する。
これは、実際には、クリップされたIPSはOPLの標準IPSよりも良いパフォーマンスを享受している、という信念に反する。
関連論文リスト
- Unified PAC-Bayesian Study of Pessimism for Offline Policy Learning with Regularized Importance Sampling [13.001601860404426]
我々は、共通重み正規化に普遍的に適用される、トラクタブルなPAC-ベイジアン一般化を導入する。
本結果は,標準IW正則化手法の有効性を実証し,共通理解に挑戦するものである。
論文 参考訳(メタデータ) (2024-06-05T16:32:14Z) - Adaptive Advantage-Guided Policy Regularization for Offline Reinforcement Learning [12.112619241073158]
オフラインの強化学習では、アウト・オブ・ディストリビューションの課題が強調される。
既存の手法は、しばしば政策規則化を通じて学習されたポリシーを制約する。
適応アドバンテージ誘導政策正規化(A2PR)を提案する。
論文 参考訳(メタデータ) (2024-05-30T10:20:55Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Off-Policy Evaluation of Slate Bandit Policies via Optimizing
Abstraction [22.215852332444907]
政策がスレートとして知られる多次元動作を選択する場合のスレート・コンテクスト・バンドイットの問題について検討する。
Inverse Propensity Scoring (IPS) の典型的な推定器は、大きな作用空間のためにかなりのばらつきに悩まされる。
我々は,低次元スレート抽象空間における重み付けを規定するラテントIPS (LIPS) と呼ばれる,スレート包帯のOPEの新しい推定器を開発した。
論文 参考訳(メタデータ) (2024-02-03T14:38:09Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Oracle-Efficient Pessimism: Offline Policy Optimization in Contextual
Bandits [82.28442917447643]
悲観的OPOのための最初の一般オラクル効率アルゴリズムを提案する。
従来の悲観的アプローチと類似した統計的保証を得る。
我々は多種多様な構成の非正規化OPOに対して優位性を示す。
論文 参考訳(メタデータ) (2023-06-13T17:29:50Z) - Safe Deployment for Counterfactual Learning to Rank with Exposure-Based
Risk Minimization [63.93275508300137]
本稿では,安全な配置を理論的に保証する新たなリスク認識型対実学習ランク法を提案する。
提案手法の有効性を実験的に検証し,データが少ない場合の動作不良の早期回避に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-26T15:54:23Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - State-Aware Proximal Pessimistic Algorithms for Offline Reinforcement
Learning [36.34691755377286]
ペシミズムはオフライン強化学習(RL)において非常に重要である
emphState-Aware Proximal Pessimism (SA-PP) と呼ばれるオフラインRLのためのアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T04:56:40Z) - You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:56Z) - BRAC+: Improved Behavior Regularized Actor Critic for Offline
Reinforcement Learning [14.432131909590824]
オフライン強化学習は、以前に収集したデータセットを使用して効果的なポリシーをトレーニングすることを目的としている。
標準的なオフ・ポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向がある。
動作の規則化によるオフライン強化学習を改善し,BRAC+を提案する。
論文 参考訳(メタデータ) (2021-10-02T23:55:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。