論文の概要: Probabilistic Offline Policy Ranking with Approximate Bayesian
Computation
- arxiv url: http://arxiv.org/abs/2312.11551v1
- Date: Sun, 17 Dec 2023 05:22:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 18:31:18.614094
- Title: Probabilistic Offline Policy Ranking with Approximate Bayesian
Computation
- Title(参考訳): 近似ベイズ計算による確率的オフライン政策ランキング
- Authors: Longchao Da, Porter Jenkins, Trevor Schwantes, Jeffrey Dotson, Hua Wei
- Abstract要約: 安全性と信頼性のために、現実のデプロイメントの前に、候補ポリシーをオフラインで比較し、ランク付けすることが不可欠です。
我々は、OPR問題に対処する枠組みである確率的オフライン政策ランキング(POPR)を提示する。
POPRは値推定に依存せず、導出された性能後部は、最悪の、最も良い、平均的なケースの候補を区別するために使用することができる。
- 参考スコア(独自算出の注目度): 4.919605764492689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In practice, it is essential to compare and rank candidate policies offline
before real-world deployment for safety and reliability. Prior work seeks to
solve this offline policy ranking (OPR) problem through value-based methods,
such as Off-policy evaluation (OPE). However, they fail to analyze special
cases performance (e.g., worst or best cases), due to the lack of holistic
characterization of policies performance. It is even more difficult to estimate
precise policy values when the reward is not fully accessible under sparse
settings. In this paper, we present Probabilistic Offline Policy Ranking
(POPR), a framework to address OPR problems by leveraging expert data to
characterize the probability of a candidate policy behaving like experts, and
approximating its entire performance posterior distribution to help with
ranking. POPR does not rely on value estimation, and the derived performance
posterior can be used to distinguish candidates in worst, best, and
average-cases. To estimate the posterior, we propose POPR-EABC, an Energy-based
Approximate Bayesian Computation (ABC) method conducting likelihood-free
inference. POPR-EABC reduces the heuristic nature of ABC by a smooth energy
function, and improves the sampling efficiency by a pseudo-likelihood. We
empirically demonstrate that POPR-EABC is adequate for evaluating policies in
both discrete and continuous action spaces across various experiment
environments, and facilitates probabilistic comparisons of candidate policies
before deployment.
- Abstract(参考訳): 実際、安全と信頼性のために、実際の配備の前に、候補ポリシーをオフラインで比較・ランク付けすることが不可欠である。
事前の作業は、オフポリシー評価(op)のような価値ベースの手法によって、このオフラインポリシーランキング(opr)問題を解決することを目指している。
しかし、ポリシーパフォーマンスの全体論的特徴が欠如しているため、特別なケースのパフォーマンス(最悪のケースやベストケースなど)の分析に失敗している。
厳密な設定で報酬が完全にアクセスできない場合、正確なポリシー値を推定することはさらに困難である。
本稿では,専門家データを利用して専門家のように振る舞う候補政策の確率を特徴付け,その性能の後方分布を近似してランキングを支援する,確率的オフライン政策ランキング(popr)を提案する。
POPRは値推定に依存せず、導出された性能後部は、最悪の、最も良い、平均的なケースの候補を区別するために使用できる。
後部推定のために,エネルギーに基づく近似ベイズ計算(ABC)手法であるPOPR-EABCを提案する。
POPR-EABCはABCのヒューリスティックな性質をスムーズなエネルギー関数によって低減し、擬似的類似度によるサンプリング効率を向上させる。
我々は,POPR-EABCが様々な実験環境における離散的かつ連続的な行動空間のポリシーを評価するのに十分であることを示す。
関連論文リスト
- OPERA: Automatic Offline Policy Evaluation with Re-weighted Aggregates of Multiple Estimators [13.408838970377035]
オフライン政策評価(OPE)により、新たなシーケンシャルな意思決定方針のパフォーマンスを評価し、見積もることができる。
統計的手法を用いた明示的な選択に頼ることなく,データセットに与えられたOPE推定器の集合を適応的にブレンドするアルゴリズムを提案する。
我々の研究は、オフラインRLのための汎用的、推定対象に依存しない、非政治評価フレームワークの使いやすさの向上に寄与する。
論文 参考訳(メタデータ) (2024-05-27T23:51:20Z) - Hyperparameter Optimization Can Even be Harmful in Off-Policy Learning and How to Deal with It [20.312864152544954]
我々は,HPOのサロゲート目的として一般化性能の非バイアス推定器を鼻で適用すると,予期せぬ故障が生じることを示した。
本稿では,上記の課題を同時に扱うために,一般的なHPO手順に対する単純で効率的な補正法を提案する。
論文 参考訳(メタデータ) (2024-04-23T14:34:16Z) - Importance-Weighted Offline Learning Done Right [16.4989952150404]
文脈的帯域幅問題におけるオフラインポリシー最適化の問題について検討する。
目標は、準最適行動ポリシーによって収集された決定データのデータセットに基づいて、ほぼ最適ポリシーを学ぶことである。
我々は、citet2015の「単純探索」推定に基づく単純な代替手法が、過去の全ての結果よりもほぼ全ての可能な条件で優れた性能保証を与えることを示した。
論文 参考訳(メタデータ) (2023-09-27T16:42:10Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Offline Policy Evaluation and Optimization under Confounding [35.778917456294046]
構築されたMDPのオフライン政策評価の状況について概説する。
一貫性のある値推定が達成不可能な設定を特徴付ける。
オフライン政策改善のための新しいアルゴリズムを提案し、局所収束保証を証明する。
論文 参考訳(メタデータ) (2022-11-29T20:45:08Z) - Conformal Off-Policy Prediction in Contextual Bandits [54.67508891852636]
コンフォーマルなオフ政治予測は、新しい目標ポリシーの下で、結果に対する信頼できる予測間隔を出力することができる。
理論上の有限サンプル保証は、標準的な文脈的バンディットの設定を超える追加の仮定をすることなく提供する。
論文 参考訳(メタデータ) (2022-06-09T10:39:33Z) - You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:56Z) - Accelerated Policy Evaluation: Learning Adversarial Environments with
Adaptive Importance Sampling [19.81658135871748]
安全クリティカルシステムにおけるバイアスまたは不正確な政策評価は、予期せぬ破滅的な失敗を引き起こす可能性がある。
本稿では,稀な事象を同時に発見し,稀な事象の確率を推定するAPE手法を提案する。
APEは、関数近似器を組み込むことにより、大きな離散空間や連続空間にスケーラブルである。
論文 参考訳(メタデータ) (2021-06-19T20:03:26Z) - Offline Policy Selection under Uncertainty [113.57441913299868]
我々は、オフラインポリシーの選択を、一定の経験データセットを与えられた政策予測のセットよりも学習の選好とみなす。
政策価値に対する信念に対する完全な分布へのアクセスは、より幅広い下流評価指標の下でより柔軟な選択アルゴリズムを可能にする。
BayesDICEが任意の下流ポリシー選択メトリックに関してポリシーのランク付けにどのように使用されるかを示します。
論文 参考訳(メタデータ) (2020-12-12T23:09:21Z) - Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文 参考訳(メタデータ) (2020-07-16T09:25:54Z) - Efficient Evaluation of Natural Stochastic Policies in Offline
Reinforcement Learning [80.42316902296832]
行動政策から逸脱した観点から定義される自然政策の効果的な非政治的評価について検討する。
これは、ほとんどの著作が明示された政策の評価を考慮に入れている、政治外の評価に関する文献から逸脱している。
論文 参考訳(メタデータ) (2020-06-06T15:08:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。