論文の概要: Partial advantage estimator for proximal policy optimization
- arxiv url: http://arxiv.org/abs/2301.10920v1
- Date: Thu, 26 Jan 2023 03:42:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-27 14:28:51.316721
- Title: Partial advantage estimator for proximal policy optimization
- Title(参考訳): 近位政策最適化のための部分優位推定器
- Authors: Xiulei Song, Yizhao Jin, Greg Slabaugh, Simon Lucas
- Abstract要約: Generalized Advantage Estimation (GAE) は、$lambda$-returnのような利点関数の指数的に重み付けされた推定器である。
現実的な応用では、軌道の不完全性により切り離されたGAEが使われ、推定時に大きなバイアスが生じる。
本稿では,不完全な軌道の偏りを著しく低減する更新計算において,その一部を取ることを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Estimation of value in policy gradient methods is a fundamental problem.
Generalized Advantage Estimation (GAE) is an exponentially-weighted estimator
of an advantage function similar to $\lambda$-return. It substantially reduces
the variance of policy gradient estimates at the expense of bias. In practical
applications, a truncated GAE is used due to the incompleteness of the
trajectory, which results in a large bias during estimation. To address this
challenge, instead of using the entire truncated GAE, we propose to take a part
of it when calculating updates, which significantly reduces the bias resulting
from the incomplete trajectory. We perform experiments in MuJoCo and $\mu$RTS
to investigate the effect of different partial coefficient and sampling
lengths. We show that our partial GAE approach yields better empirical results
in both environments.
- Abstract(参考訳): 政策勾配法における値の推定は基本的な問題である。
generalized advantage estimation (gae) は$\lambda$-return に似たアドバンテージ関数の指数重み付き推定子である。
バイアスを犠牲にして、政策勾配推定のばらつきを実質的に低減する。
現実的な応用では、軌道の不完全性により切り離されたGAEが使われ、推定時に大きなバイアスが生じる。
この課題に対処するために、切り捨てられたGAE全体を使わずに、更新を計算する際にその一部を取ることを提案し、不完全な軌道から生じるバイアスを著しく低減する。
mujoco と $\mu$rts で実験を行い, 異なる部分係数とサンプリング長さの影響について検討した。
両環境においてGAEアプローチがより優れた実験結果をもたらすことを示す。
関連論文リスト
- A Unified Analysis for Finite Weight Averaging [50.75116992029417]
Gradient Descent(SGD)の平均イテレーションは、SWA(Weight Averaging)、EMA(Exponential moving Average)、LAWA(Latest Weight Averaging)といったディープラーニングモデルのトレーニングにおいて、経験的な成功を収めている。
本稿では、LAWAを有限重み平均化(FWA)として一般化し、最適化と一般化の観点からSGDと比較して、それらの利点を説明する。
論文 参考訳(メタデータ) (2024-11-20T10:08:22Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - U-Statistics for Importance-Weighted Variational Inference [29.750633016889655]
重要重み付き変分推論における推定のばらつきを低減するために,U-statisticsを用いた手法を提案する。
実験により,U-Statistic variance reduction(U-Statistic variance)の低減は,モデルの範囲での推論性能の大幅な改善につながることが確認された。
論文 参考訳(メタデータ) (2023-02-27T16:08:43Z) - Variance Reduction for Score Functions Using Optimal Baselines [0.0]
本稿では,スコア関数の分散化手法であるベースラインについて検討する。
主に強化学習によって動機付けされ、最適な状態依存ベースラインの表現が初めて導かれる。
論文 参考訳(メタデータ) (2022-12-27T19:17:28Z) - Asymptotically Unbiased Instance-wise Regularized Partial AUC
Optimization: Theory and Algorithm [101.44676036551537]
One-way partial AUC (OPAUC) と Two-way partial AUC (TPAUC) はバイナリ分類器の平均性能を測定する。
既存の手法のほとんどはPAUCをほぼ最適化するしかなく、制御不能なバイアスにつながる。
本稿では,分散ロバスト最適化AUCによるPAUC問題の簡易化について述べる。
論文 参考訳(メタデータ) (2022-10-08T08:26:22Z) - Rethinking Collaborative Metric Learning: Toward an Efficient
Alternative without Negative Sampling [156.7248383178991]
コラボレーティブ・メトリック・ラーニング(CML)パラダイムはレコメンデーション・システム(RS)分野に広く関心を集めている。
負のサンプリングが一般化誤差のバイアス付き推定に繋がることがわかった。
そこで我々は,SFCML (textitSampling-Free Collaborative Metric Learning) という名前のCMLに対して,負のサンプリングを伴わない効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-06-23T08:50:22Z) - Biased Gradient Estimate with Drastic Variance Reduction for Meta
Reinforcement Learning [25.639542287310768]
偏りのある勾配推定はほとんど常に実践されるが、メタRLの先行理論は偏りのない勾配推定の下でのみ収束を確立する。
線形化スコア関数 (LSF) 勾配推定法を提案し, バイアスが$mathcalO (1/sqrtN)$, 分散が$mathcalO (1/N)$である。
定常点への収束に関するメタRLのLSF勾配推定の理論的保証を確立し、N$が大きければ以前の作業よりもN$への依存性がよいことを示す。
論文 参考訳(メタデータ) (2021-12-14T12:29:43Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Heavy-tailed Streaming Statistical Estimation [58.70341336199497]
ストリーミング$p$のサンプルから重み付き統計推定の課題を考察する。
そこで我々は,傾きの雑音に対して,よりニュアンスな条件下での傾きの傾きの低下を設計し,より詳細な解析を行う。
論文 参考訳(メタデータ) (2021-08-25T21:30:27Z) - On the Convergence of SGD with Biased Gradients [28.400751656818215]
偏り勾配法 (SGD) の導出領域を解析し, 個々の更新を圧縮によって劣化させる。
偏差精度と収束率の影響の程度を定量化する。
論文 参考訳(メタデータ) (2020-07-31T19:37:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。