論文の概要: Error Controlled Actor-Critic
- arxiv url: http://arxiv.org/abs/2109.02517v2
- Date: Tue, 7 Sep 2021 03:08:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-08 10:44:12.664538
- Title: Error Controlled Actor-Critic
- Title(参考訳): エラー制御アクタ臨界
- Authors: Xingen Gao, Fei Chao, Changle Zhou, Zhen Ge, Chih-Min Lin, Longzhi
Yang, Xiang Chang, and Changjing Shang
- Abstract要約: 値関数の誤差は必然的に過大評価現象を引き起こし、アルゴリズムの収束に悪影響を及ぼす。
本稿では,値関数の近似誤差を補正する誤り制御アクタ批判を提案する。
- 参考スコア(独自算出の注目度): 7.936003142729818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On error of value function inevitably causes an overestimation phenomenon and
has a negative impact on the convergence of the algorithms. To mitigate the
negative effects of the approximation error, we propose Error Controlled
Actor-critic which ensures confining the approximation error in value function.
We present an analysis of how the approximation error can hinder the
optimization process of actor-critic methods.Then, we derive an upper boundary
of the approximation error of Q function approximator and find that the error
can be lowered by restricting on the KL-divergence between every two
consecutive policies when training the policy. The results of experiments on a
range of continuous control tasks demonstrate that the proposed actor-critic
algorithm apparently reduces the approximation error and significantly
outperforms other model-free RL algorithms.
- Abstract(参考訳): 値関数の誤差は必然的に過大評価現象を引き起こし、アルゴリズムの収束に悪影響を及ぼす。
近似誤差の負の効果を緩和するために,値関数の近似誤差を封じ込めた誤差制御アクタ-クリティックを提案する。
本稿では,アクター-批判的手法の最適化過程において近似誤差がどのように影響するかを分析するとともに,q関数近似器の近似誤差の上界を導出し,方針を訓練する際にkl-divergenceを制約することにより誤差を低減できることを示す。
一連の連続制御タスクにおける実験の結果,提案手法は近似誤差を低減し,他のモデルフリーなrlアルゴリズムを著しく上回ることがわかった。
関連論文リスト
- Explicit Lipschitz Value Estimation Enhances Policy Robustness Against Perturbation [2.2120851074630177]
ロボット制御タスクでは、シミュレーションにおいて強化学習(RL)によって訓練されたポリシーは、物理ハードウェアにデプロイされた場合、しばしばパフォーマンス低下を経験する。
リプシッツ正則化は、近似値関数勾配の条件付けに役立ち、訓練後のロバスト性の向上につながる。
論文 参考訳(メタデータ) (2024-04-22T05:01:29Z) - A Case for Validation Buffer in Pessimistic Actor-Critic [1.5022206231191775]
評価誤差はベルマン値と同様の固定点モデルにより近似できることを示す。
本稿では,悲観的批判が偏りのない条件を抽出するための検証ペシミズム学習(VPL)アルゴリズムを提案する。
VPLは、エージェントトレーニングを通してペシミズムのレベルを調整するために、小さなバリデーションバッファを使用し、批判対象の近似誤差を最小限に抑えるように悲観的セットをセットする。
論文 参考訳(メタデータ) (2024-03-01T22:24:11Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy
Optimization [63.32053223422317]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
特に、MDP上の分布によって誘導される値の分散を特徴付けることに焦点をあてる。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Sharper Bounds for Proximal Gradient Algorithms with Errors [6.901159341430919]
凸複合問題に対する近位勾配アルゴリズムの収束度を、勾配と近位計算の不正確さの存在下で解析する。
我々は、シミュレーション(MPC)と合成(LASSO)最適化問題を検証するために、より厳密な決定的および確率的境界を導出する。
論文 参考訳(メタデータ) (2022-03-04T09:27:08Z) - Accelerated and instance-optimal policy evaluation with linear function
approximation [17.995515643150657]
既存のアルゴリズムはこれらの下界の少なくとも1つと一致しない。
我々は,両下界を同時に一致させる高速時間差分アルゴリズムを開発し,インスタンス最適性という強い概念を実現する。
論文 参考訳(メタデータ) (2021-12-24T17:21:04Z) - Tightening the Approximation Error of Adversarial Risk with Auto Loss
Function Search [12.263913626161155]
一般的な評価手法は、モデルの逆方向リスクをロバスト性指標として近似することである。
本稿では,エラーを厳格化するための損失関数を探索する最初の手法であるAutoLoss-ARを提案する。
その結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2021-11-09T11:47:43Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。
DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。
有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文 参考訳(メタデータ) (2021-02-23T18:56:13Z) - Exploiting Higher Order Smoothness in Derivative-free Optimization and
Continuous Bandits [99.70167985955352]
強凸関数のゼロ次最適化問題について検討する。
予測勾配降下アルゴリズムのランダム化近似を考察する。
その結果,0次アルゴリズムはサンプルの複雑性や問題パラメータの点でほぼ最適であることが示唆された。
論文 参考訳(メタデータ) (2020-06-14T10:42:23Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。