論文の概要: Evaluation-Aware Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.19464v1
- Date: Tue, 23 Sep 2025 18:17:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.564096
- Title: Evaluation-Aware Reinforcement Learning
- Title(参考訳): 評価意識の強化学習
- Authors: Shripad Vilasrao Deshmukh, Will Schwarzer, Scott Niekum,
- Abstract要約: 政策評価は、安全および性能クリティカルなシステムをデプロイするための前提条件であることが多い。
本稿では,評価対応強化学習(EvA-RL)を提案する。
EvA-RLは競合リターンを維持しつつ評価誤差を大幅に低減できることを示す。
- 参考スコア(独自算出の注目度): 10.594563233900004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Policy evaluation is often a prerequisite for deploying safety- and performance-critical systems. Existing evaluation approaches frequently suffer from high variance due to limited data and long-horizon tasks, or high bias due to unequal support or inaccurate environmental models. We posit that these challenges arise, in part, from the standard reinforcement learning (RL) paradigm of policy learning without explicit consideration of evaluation. As an alternative, we propose evaluation-aware reinforcement learning (EvA-RL), in which a policy is trained to maximize expected return while simultaneously minimizing expected evaluation error under a given value prediction scheme -- in other words, being "easy" to evaluate. We formalize a framework for EvA-RL and design an instantiation that enables accurate policy evaluation, conditioned on a small number of rollouts in an assessment environment that can be different than the deployment environment. However, our theoretical analysis and empirical results show that there is often a tradeoff between evaluation accuracy and policy performance when using a fixed value-prediction scheme within EvA-RL. To mitigate this tradeoff, we extend our approach to co-learn an assessment-conditioned state-value predictor alongside the policy. Empirical results across diverse discrete and continuous action domains demonstrate that EvA-RL can substantially reduce evaluation error while maintaining competitive returns. This work lays the foundation for a broad new class of RL methods that treat reliable evaluation as a first-class principle during training.
- Abstract(参考訳): 政策評価は、安全および性能クリティカルなシステムをデプロイするための前提条件であることが多い。
既存の評価手法は、限られたデータや長期のタスク、不平等なサポートや不正確な環境モデルによる高いバイアスによってしばしば高いばらつきに悩まされる。
これらの課題の一部は、評価の明確な考慮なしに、政策学習の標準強化学習(RL)パラダイムから生じていると仮定する。
代替として、評価対応強化学習(EvA-RL)を提案し、与えられた値予測スキームの下で予測される評価誤差を最小化しつつ、期待されるリターンを最大化するためのポリシーを訓練する。
我々は,EvA-RLの枠組みを定式化し,展開環境と異なる評価環境における少数のロールアウトを条件とした,正確なポリシー評価を可能にするインスタンス化を設計する。
しかし,EvA-RL内に固定値予測方式を用いる場合,評価精度と政策性能とのトレードオフがしばしばあることを示す。
このトレードオフを緩和するため、我々は政策とともに評価条件付き状態値予測器を共同学習するアプローチを拡張した。
多様な離散的かつ連続的な作用領域にわたる実験結果から、EvA-RLは競合リターンを維持しながら評価誤差を大幅に低減できることが示された。
本研究は, 信頼性評価を第一級原理として扱うRL手法の幅広いクラスの基礎を築いた。
関連論文リスト
- Random Policy Enables In-Context Reinforcement Learning within Trust Horizons [2.52299400625445]
State-Action Distillation (SAD) は、ランダムポリシーのみによってガイドされる効果的な事前学習データセットを生成する。
SADはオフライン評価では236.3%、オンライン評価では135.2%で最高のベースラインを上回っている。
論文 参考訳(メタデータ) (2024-10-25T21:46:25Z) - Unifying Gradient Estimators for Meta-Reinforcement Learning via
Off-Policy Evaluation [53.83642844626703]
オフ・ポリシー評価に基づいて,高次値関数の高次微分を推定するための統一フレームワークを提供する。
本フレームワークは, ヘッセン推定の偏りと分散トレードオフを解明する特別事例として, 多くの先行的アプローチを解釈する。
論文 参考訳(メタデータ) (2021-06-24T15:58:01Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Bootstrapping Statistical Inference for Off-Policy Evaluation [43.79456564713911]
オフ政治評価(OPE)におけるブートストラップの利用について検討する。
本稿では,政策評価誤差の分布を推定するブートストラップFQE法を提案し,この手法が政治外の統計的推測に有効で一貫性があることを示す。
我々は,古典的RL環境におけるブートラッピング手法の評価を行い,信頼区間推定,オフポリチック評価器のばらつきの推定,複数オフポリチック評価器の相関性の推定を行った。
論文 参考訳(メタデータ) (2021-02-06T16:45:33Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文 参考訳(メタデータ) (2020-07-16T09:25:54Z) - Expert-Supervised Reinforcement Learning for Offline Policy Learning and
Evaluation [21.703965401500913]
本稿では,オフライン政策学習のための不確実性定量化手法であるExpert-Supervised RL (ESRL) フレームワークを提案する。
具体的には,1)仮説テストによる安全かつ最適なポリシの学習,2)ESRLはアプリケーションコンテキストに合わせて異なるレベルのリスク逆実装を可能にし,3)後続分布を通してESRLのポリシーを解釈する方法を提案する。
論文 参考訳(メタデータ) (2020-06-23T17:43:44Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z) - Interpretable Off-Policy Evaluation in Reinforcement Learning by
Highlighting Influential Transitions [48.91284724066349]
強化学習におけるオフ政治評価は、医療や教育などの領域における将来の成果を改善するために観察データを使用する機会を提供する。
信頼区間のような従来の尺度は、ノイズ、限られたデータ、不確実性のために不十分である可能性がある。
我々は,人間専門家が政策評価評価評価の妥当性を分析できるように,ハイブリッドAIシステムとして機能する手法を開発した。
論文 参考訳(メタデータ) (2020-02-10T00:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。