論文の概要: Safe Optimal Design with Applications in Policy Learning
- arxiv url: http://arxiv.org/abs/2111.04835v1
- Date: Mon, 8 Nov 2021 21:20:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-10 15:02:49.335157
- Title: Safe Optimal Design with Applications in Policy Learning
- Title(参考訳): ポリシー学習における安全な最適設計
- Authors: Ruihao Zhu and Branislav Kveton
- Abstract要約: 我々は,基本生産方針で競争報酬を達成しつつ,効率的に探索するデータロギングポリシを開発する。
我々は、広範囲な実験を行うことで、設計の利点を実証的に検証する。
- 参考スコア(独自算出の注目度): 17.378214162534285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by practical needs in online experimentation and off-policy
learning, we study the problem of safe optimal design, where we develop a data
logging policy that efficiently explores while achieving competitive rewards
with a baseline production policy. We first show, perhaps surprisingly, that a
common practice of mixing the production policy with uniform exploration,
despite being safe, is sub-optimal in maximizing information gain. Then we
propose a safe optimal logging policy for the case when no side information
about the actions' expected rewards is available. We improve upon this design
by considering side information and also extend both approaches to a large
number of actions with a linear reward model. We analyze how our data logging
policies impact errors in off-policy learning. Finally, we empirically validate
the benefit of our designs by conducting extensive experiments.
- Abstract(参考訳): オンライン実験と非政治学習の実践的なニーズに支えられ、安全な最適設計の問題を研究し、ベースライン生産ポリシーで競争的な報酬を達成しつつ、効率的に探索するデータロギングポリシーを開発する。
まず、おそらく意外なことに、安全であるにもかかわらず、生産方針と均一な探査を混ぜる一般的な方法は、情報の獲得を最大化するための準最適であることを示す。
次に,アクションの期待報酬に関する情報が得られない場合に対して,安全な最適ログポリシーを提案する。
我々は,この設計を側面情報を考慮して改善するとともに,線形報酬モデルを用いて2つのアプローチを多数のアクションに拡張する。
オフ・ポリティカル・ラーニングにおけるエラーにデータロギングポリシーがどのように影響するかを分析する。
最後に,広範な実験を行い,設計のメリットを実証的に検証した。
関連論文リスト
- Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - CAMEO: Curiosity Augmented Metropolis for Exploratory Optimal Policies [62.39667564455059]
最適政策の分布を考察し研究する。
実験シミュレーションでは、CAMEOは古典的な制御問題を全て解決するポリシーを実際に得ることを示した。
さらに,本論文では,異なるリスクプロファイルを示す異なるポリシーを,解釈可能性に関する興味深い実践的応用に対応して提示する。
論文 参考訳(メタデータ) (2022-05-19T09:48:56Z) - Intrusion Prevention through Optimal Stopping [0.0]
強化学習を用いた自動侵入防止について検討した。
当社のアプローチは,限られた規模の実践的なITインフラストラクチャに対して,効果的なディフェンダポリシを実現することができることを示す。
論文 参考訳(メタデータ) (2021-10-30T17:03:28Z) - Doubly Robust Interval Estimation for Optimal Policy Evaluation in Online Learning [8.736154600219685]
オンライン学習における政策評価が注目を集めている。
しかし、オンライン環境で生成された依存データのため、このような問題は特に困難である。
本研究では,オンライン学習における最適ポリシーに基づいて,2倍頑健区間推定法(DREAM)を開発した。
論文 参考訳(メタデータ) (2021-10-29T02:38:54Z) - Building a Foundation for Data-Driven, Interpretable, and Robust Policy
Design using the AI Economist [67.08543240320756]
AIエコノミストフレームワークは,2段階強化学習とデータ駆動型シミュレーションを用いて,効果的な,柔軟な,解釈可能なポリシー設計を可能にする。
RLを用いて訓練されたログリニア政策は、過去の結果と比較して、公衆衛生と経済の両面から社会福祉を著しく改善することがわかった。
論文 参考訳(メタデータ) (2021-08-06T01:30:41Z) - Combining Online Learning and Offline Learning for Contextual Bandits
with Deficient Support [53.11601029040302]
現在のオフライン政治学習アルゴリズムは、主に逆確率スコア(IPS)重み付けに基づいている。
オフライン学習とオンライン探索を組み合わせた新しい手法を提案する。
提案手法は,最小限のオンライン探索数を用いて理論的保証を伴う最適政策を決定する。
論文 参考訳(メタデータ) (2021-07-24T05:07:43Z) - Learning Intrusion Prevention Policies through Optimal Stopping [0.0]
強化学習を用いた自動侵入防止について検討した。
侵入防止問題を最適停止問題として定式化する。
この定式化により、最適ポリシーの構造についての洞察が得られ、しきい値に基づくことが判明した。
論文 参考訳(メタデータ) (2021-06-14T04:45:37Z) - Safe Reinforcement Learning in Constrained Markov Decision Processes [20.175139766171277]
本稿では,マルコフ決定過程を未知の安全制約下で探索・最適化するアルゴリズムSNO-MDPを提案する。
我々は、安全制約の満足度と累積報酬のほぼ最適性の両方を理論的に保証する。
論文 参考訳(メタデータ) (2020-08-15T02:20:23Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。