論文の概要: Supervised Off-Policy Ranking
- arxiv url: http://arxiv.org/abs/2107.01360v1
- Date: Sat, 3 Jul 2021 07:01:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-06 14:55:29.156549
- Title: Supervised Off-Policy Ranking
- Title(参考訳): 監督オフポリシーランキング
- Authors: Yue Jin, Yue Zhang, Tao Qin, Xudong Zhang, Jian Yuan, Houqiang Li,
Tie-Yan Liu
- Abstract要約: オフポリシー評価(OPE)は、他のポリシーによって生成されたデータを活用して、ターゲットポリシーを評価する。
本稿では,訓練方針と既知の実績を正しくランク付けすることで,政策スコアリングモデルを学習する教師付き非政治ランキングを提案する。
本手法は,上位3つのポリシーのうち,最良と最良の双方のランク相関と性能差の両面から,強力なベースラインOPE法より優れる。
- 参考スコア(独自算出の注目度): 145.3039527243585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-policy evaluation (OPE) leverages data generated by other policies to
evaluate a target policy. Previous OPE methods mainly focus on precisely
estimating the true performance of a policy. We observe that in many
applications, (1) the end goal of OPE is to compare two or multiple candidate
policies and choose a good one, which is actually a much simpler task than
evaluating their true performance; and (2) there are usually multiple policies
that have been deployed in real-world systems and thus whose true performance
is known through serving real users. Inspired by the two observations, in this
work, we define a new problem, supervised off-policy ranking (SOPR), which aims
to rank a set of new/target policies based on supervised learning by leveraging
off-policy data and policies with known performance. We further propose a
method for supervised off-policy ranking that learns a policy scoring model by
correctly ranking training policies with known performance rather than
estimating their precise performance. Our method leverages logged states and
policies to learn a Transformer based model that maps offline interaction data
including logged states and the actions taken by a target policy on these
states to a score. Experiments on different games, datasets, training policy
sets, and test policy sets show that our method outperforms strong baseline OPE
methods in terms of both rank correlation and performance gap between the truly
best and the best of the ranked top three policies. Furthermore, our method is
more stable than baseline methods.
- Abstract(参考訳): オフポリシー評価(OPE)は、他のポリシーによって生成されたデータを活用して、ターゲットポリシーを評価する。
従来の ope 手法は主にポリシーの真の性能を正確に推定することに焦点を当てている。
多くのアプリケーションにおいて,(1)OPEの最終目標は2つないし複数の候補ポリシーを比較してよいものを選択することであり,これは実際の性能を評価するよりもはるかに簡単な作業であり,(2)現実のシステムにデプロイされた複数のポリシーが存在するため,実際のユーザへのサービス提供を通じて真のパフォーマンスが知られている。
本研究は,2つの観察から着想を得て,教師付き非政治ランキング(SOPR)という新たな課題を定義した。これは,教師付き学習に基づく一連の新しい/ターゲットポリシーのランク付けを目的としたもので,教師付き非政治データと既知のパフォーマンスのポリシーを利用する。
さらに、正確な性能を推定するのではなく、トレーニングポリシーを既知の性能で正しくランク付けすることで、政策スコアリングモデルを学ぶ教師なしランキングの手法を提案する。
本手法は,ログ状態を含むオフラインインタラクションデータと,これらの状態のターゲットポリシーが取得したアクションをスコアにマップするトランスフォーマティブモデルを学ぶために,ログ状態とポリシを活用する。
異なるゲーム,データセット,トレーニングポリシセット,テストポリシセットの実験から,本手法は,最良と最良の2つの上位3つのポリシの双方のランク相関とパフォーマンスギャップにおいて,強力なベースラインPEメソッドよりも優れることが示された。
さらに,本手法はベースライン法よりも安定である。
関連論文リスト
- Efficient Multi-Policy Evaluation for Reinforcement Learning [25.83084281519926]
対象とするすべてのポリシーにおける推定器のばらつきを低減するために、調整された行動ポリシーを設計する。
推定器は, 従来の最適手法に比べて, かなり低いばらつきを有することを示す。
論文 参考訳(メタデータ) (2024-08-16T12:33:40Z) - POTEC: Off-Policy Learning for Large Action Spaces via Two-Stage Policy
Decomposition [40.851324484481275]
大規模離散行動空間における文脈的バンディット政策の非政治的学習について検討する。
本稿では,2段階ポリシー分解によるポリシー最適化という新しい2段階アルゴリズムを提案する。
特に大規模かつ構造化された行動空間において,POTECはOPLの有効性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-02-09T03:01:13Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Counterfactual Learning with General Data-generating Policies [3.441021278275805]
我々は、コンテキスト帯域設定における完全なサポートと不足したサポートロギングポリシーのクラスのためのOPE手法を開発した。
サンプルサイズが大きくなるにつれて,本手法の予測値が実測値の真の性能に収束することが証明された。
論文 参考訳(メタデータ) (2022-12-04T21:07:46Z) - Improving Sample Efficiency in Evolutionary RL Using Off-Policy Ranking [2.8176502405615396]
進化戦略(Evolution Strategy, ES)は、自然進化の考え方に基づく強力なブラックボックス最適化手法である。
本稿では、フィットネス機能に対する局所近似に基づいて、ランク付けのための新しい非政治的代替案を提案する。
我々は、Augmented Random Search (ARS)と呼ばれる最先端ES手法の文脈で、我々のアイデアを実証する。
論文 参考訳(メタデータ) (2022-08-22T20:29:20Z) - Non-Stationary Off-Policy Optimization [50.41335279896062]
本研究では,時間的空間的帯域幅の非政治最適化の新たな課題について検討する。
オフライン学習フェーズでは、ログ化されたデータをカテゴリの潜在状態に分割し、各状態に対してほぼ最適のサブポリシーを学ぶ。
オンラインデプロイメントの段階では、学習したサブ政治をそのパフォーマンスに基づいて順応的に切り替える。
論文 参考訳(メタデータ) (2020-06-15T09:16:09Z) - Efficient Evaluation of Natural Stochastic Policies in Offline
Reinforcement Learning [80.42316902296832]
行動政策から逸脱した観点から定義される自然政策の効果的な非政治的評価について検討する。
これは、ほとんどの著作が明示された政策の評価を考慮に入れている、政治外の評価に関する文献から逸脱している。
論文 参考訳(メタデータ) (2020-06-06T15:08:24Z) - Policy Evaluation Networks [50.53250641051648]
我々は,簡潔な埋め込みにおいて重要なポリシー情報を保持できる,スケーラブルで差別化可能なフィンガープリント機構を導入する。
実験の結果、これらの3つの要素を組み合わせることで、トレーニングデータを生成するものよりも優れたポリシーを作成できることが示された。
論文 参考訳(メタデータ) (2020-02-26T23:00:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。