論文の概要: Off-policy Bandits with Deficient Support
- arxiv url: http://arxiv.org/abs/2006.09438v1
- Date: Tue, 16 Jun 2020 18:30:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 20:21:22.200454
- Title: Off-policy Bandits with Deficient Support
- Title(参考訳): 支持が不十分なオフポリシーバンディット
- Authors: Noveen Sachdeva, Yi Su, Thorsten Joachims
- Abstract要約: このような非政治学習のための最先端の手法は、逆相対性スコア(IPS)重み付けに基づいている。
既存の手法が破滅的に失敗する可能性を示す。
IPSベースの学習に様々な保証を提供する3つのアプローチを同定する。
- 参考スコア(独自算出の注目度): 40.93905633202235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning effective contextual-bandit policies from past actions of a deployed
system is highly desirable in many settings (e.g. voice assistants,
recommendation, search), since it enables the reuse of large amounts of log
data. State-of-the-art methods for such off-policy learning, however, are based
on inverse propensity score (IPS) weighting. A key theoretical requirement of
IPS weighting is that the policy that logged the data has "full support", which
typically translates into requiring non-zero probability for any action in any
context. Unfortunately, many real-world systems produce support deficient data,
especially when the action space is large, and we show how existing methods can
fail catastrophically. To overcome this gap between theory and applications, we
identify three approaches that provide various guarantees for IPS-based
learning despite the inherent limitations of support-deficient data:
restricting the action space, reward extrapolation, and restricting the policy
space. We systematically analyze the statistical and computational properties
of these three approaches, and we empirically evaluate their effectiveness. In
addition to providing the first systematic analysis of support-deficiency in
contextual-bandit learning, we conclude with recommendations that provide
practical guidance.
- Abstract(参考訳): デプロイされたシステムの過去の動作から効果的なコンテキスト帯域ポリシーを学習することは、大量のログデータの再利用を可能にするため、多くの設定(音声アシスタント、レコメンデーション、検索など)で非常に望ましい。
しかし、そのようなオフ・ポリティ・ラーニングのための最先端の手法は、ips(inverse propensity score)重み付けに基づいている。
IPS重み付けの重要な理論的な要件は、データをログしたポリシーが「完全なサポート」を持っていることである。
残念ながら、多くの現実世界のシステムは、特にアクション空間が大きい場合、サポート不足のデータを生成し、既存の手法が破滅的に失敗する可能性があることを示す。
このような理論と応用のギャップを克服するために,サポート不足データに固有の制約があるにもかかわらず,IPSベースの学習に様々な保証を提供する3つのアプローチを同定する。
これら3つの手法の統計的および計算的性質を体系的に解析し,その効果を実証的に評価する。
文脈帯域学習におけるサポート欠陥の体系的分析に加えて,実践的指導を行うための推奨事項も提示する。
関連論文リスト
- Multi-Agent Reinforcement Learning from Human Feedback: Data Coverage and Algorithmic Techniques [65.55451717632317]
我々は,MARLHF(Multi-Agent Reinforcement Learning from Human Feedback)について検討し,理論的基礎と実証的検証の両方について検討した。
我々は,このタスクを,一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ均衡を識別するものとして定義する。
本研究は,MARLHFの多面的アプローチを基礎として,効果的な嗜好に基づくマルチエージェントシステムの実現を目指している。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data [17.991833729722288]
我々は新しいポリシー学習アルゴリズム PESsimistic CAusal Learning (PESCAL) を提案する。
我々のキーとなる観察は、システム力学における作用の効果を媒介する補助変数を組み込むことで、Q-関数の代わりに媒介物分布関数の下位境界を学習することは十分であるということである。
提案するアルゴリズムの理論的保証とシミュレーションによる有効性の実証、および主要な配車プラットフォームからのオフラインデータセットを利用した実世界の実験を提供する。
論文 参考訳(メタデータ) (2024-03-18T14:51:19Z) - Evaluating the Effectiveness of Index-Based Treatment Allocation [42.040099398176665]
リソースが不足している場合には、リソースを誰が受け取るかを決定するためにアロケーションポリシーが必要である。
本稿では、ランダム化制御試験のデータを用いて、インデックスベースのアロケーションポリシーを評価する手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T01:55:55Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Intrusion Prevention through Optimal Stopping [0.0]
強化学習を用いた自動侵入防止について検討した。
当社のアプローチは,限られた規模の実践的なITインフラストラクチャに対して,効果的なディフェンダポリシを実現することができることを示す。
論文 参考訳(メタデータ) (2021-10-30T17:03:28Z) - Combining Online Learning and Offline Learning for Contextual Bandits
with Deficient Support [53.11601029040302]
現在のオフライン政治学習アルゴリズムは、主に逆確率スコア(IPS)重み付けに基づいている。
オフライン学習とオンライン探索を組み合わせた新しい手法を提案する。
提案手法は,最小限のオンライン探索数を用いて理論的保証を伴う最適政策を決定する。
論文 参考訳(メタデータ) (2021-07-24T05:07:43Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。