論文の概要: On the Reuse Bias in Off-Policy Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2209.07074v3
- Date: Sun, 21 May 2023 12:40:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 05:45:55.451673
- Title: On the Reuse Bias in Off-Policy Reinforcement Learning
- Title(参考訳): オフポリティ強化学習における再利用バイアスについて
- Authors: Chengyang Ying, Zhongkai Hao, Xinning Zhou, Hang Su, Dong Yan, Jun Zhu
- Abstract要約: Reuse Biasは、評価と最適化のためのリプレイバッファの再利用によって生じる、政治外の評価のバイアスである。
本稿では,リプレイバッファのデータによる現在の政策の非政治的評価と最適化が,目的を過大評価する結果となることを示す。
本稿では,新しいBIRIS(Bias-Regularized Importance Smpling)フレームワークと,Reuse Biasの悪影響を軽減する実用的なアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 28.29153543457396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Importance sampling (IS) is a popular technique in off-policy evaluation,
which re-weights the return of trajectories in the replay buffer to boost
sample efficiency. However, training with IS can be unstable and previous
attempts to address this issue mainly focus on analyzing the variance of IS. In
this paper, we reveal that the instability is also related to a new notion of
Reuse Bias of IS -- the bias in off-policy evaluation caused by the reuse of
the replay buffer for evaluation and optimization. We theoretically show that
the off-policy evaluation and optimization of the current policy with the data
from the replay buffer result in an overestimation of the objective, which may
cause an erroneous gradient update and degenerate the performance. We further
provide a high-probability upper bound of the Reuse Bias, and show that
controlling one term of the upper bound can control the Reuse Bias by
introducing the concept of stability for off-policy algorithms. Based on these
analyses, we finally present a novel Bias-Regularized Importance Sampling
(BIRIS) framework along with practical algorithms, which can alleviate the
negative impact of the Reuse Bias. Experimental results show that our
BIRIS-based methods can significantly improve the sample efficiency on a series
of continuous control tasks in MuJoCo.
- Abstract(参考訳): 重要サンプリング (is) はオフポリシー評価において一般的な手法であり、サンプル効率を高めるためにリプレイバッファ内の軌道の再重み付けを行う。
しかし、ISによるトレーニングは不安定であり、この問題に対処する以前の試みは、主にISのばらつきの分析に焦点を当てていた。
本稿では,isの再利用バイアスの新しい概念 -- 評価と最適化のためにリプレイバッファの再利用によって生じるオフポリシー評価のバイアス -- にも不安定性が関係していることを明らかにする。
理論的には、リプレイバッファのデータによる現在のポリシーの非政治的評価と最適化が目的を過大評価する結果となり、誤って勾配が更新され、性能が劣化する可能性がある。
さらに、再利用バイアスの高確率上限を提供し、オフポリシーアルゴリズムの安定性の概念を導入することにより、上限の一方の項を制御することで再利用バイアスを制御できることを示す。
これらの分析に基づいて, 再利用バイアスの悪影響を緩和する実用的なアルゴリズムとともに, 新たなバイアス正規化重要度サンプリング(biris)フレームワークを提案する。
実験の結果,本手法はムジョコにおける一連の連続制御タスクのサンプル効率を大幅に向上できることがわかった。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Counterfactual-Augmented Importance Sampling for Semi-Offline Policy
Evaluation [13.325600043256552]
そこで本研究では,ヒトが観測不能な反事実軌道のアノテーションを提供する半オフライン評価フレームワークを提案する。
提案手法は,アノテーション・ソリケーションの原則に基づく設計と組み合わせることで,高次の領域における強化学習の活用を可能にする。
論文 参考訳(メタデータ) (2023-10-26T04:41:19Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Asymptotically Unbiased Off-Policy Policy Evaluation when Reusing Old
Data in Nonstationary Environments [31.492146288630515]
回帰支援DR推定器(Regressive-Assisted DR estimator)と呼ばれる2重頑健(DR)推定器の変種を導入し、大きなバイアスを伴わずに過去のデータを組み込むことができる。
本研究では,新しい推定器が現在および将来の政策値の推定を改善することを実証的に示し,複数の非定常的推薦環境において厳密かつ有効な区間推定を提供する。
論文 参考訳(メタデータ) (2023-02-23T01:17:21Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Proposal Distribution Calibration for Few-Shot Object Detection [65.19808035019031]
few-shot object detection (FSOD)では、重度のサンプル不均衡を軽減するために、2段階の訓練パラダイムが広く採用されている。
残念ながら、極端なデータ不足は、提案の分布バイアスを増大させ、RoIヘッドが新しいクラスに進化するのを妨げます。
本稿では,RoIヘッドのローカライゼーションと分類能力を高めるために,単純かつ効果的な提案分布キャリブレーション(PDC)手法を提案する。
論文 参考訳(メタデータ) (2022-12-15T05:09:11Z) - Sample Efficient Deep Reinforcement Learning via Uncertainty Estimation [12.415463205960156]
モデルフリー深部強化学習(RL)アルゴリズムでは、ノイズ値推定を用いて政策評価と最適化を監督し、サンプル効率を損なう。
RLで発生するノイズ管理における不確実性の原因を系統的に分析する。
本稿では,2つの相補的不確実性推定手法がQ値と環境の両方を考慮し,ノイズ管理の負の影響を緩和する手法を提案する。
論文 参考訳(メタデータ) (2022-01-05T15:46:06Z) - Assessment of Treatment Effect Estimators for Heavy-Tailed Data [70.72363097550483]
ランダム化制御試験(RCT)における治療効果の客観的評価における中心的な障害は、その性能をテストするための基礎的真理(または検証セット)の欠如である。
この課題に対処するための新しいクロスバリデーションのような方法論を提供する。
本手法は,Amazonサプライチェーンに実装された709RCTに対して評価を行った。
論文 参考訳(メタデータ) (2021-12-14T17:53:01Z) - Variance Reduction based Experience Replay for Policy Optimization [3.0790370651488983]
Variance Reduction Experience Replay (VRER) は、政策勾配推定を改善するために、関連するサンプルを選択的に再利用するためのフレームワークである。
VRERは、VRERによるポリシーグラディエントとして知られる、効率的な非政治学習アルゴリズムの基盤となる。
論文 参考訳(メタデータ) (2021-10-17T19:28:45Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。