論文の概要: A Case for Validation Buffer in Pessimistic Actor-Critic
- arxiv url: http://arxiv.org/abs/2403.01014v1
- Date: Fri, 1 Mar 2024 22:24:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 15:37:31.136288
- Title: A Case for Validation Buffer in Pessimistic Actor-Critic
- Title(参考訳): 悲観的アクタ批判におけるバリデーションバッファの1例
- Authors: Michal Nauman, Mateusz Ostaszewski and Marek Cygan
- Abstract要約: 評価誤差はベルマン値と同様の固定点モデルにより近似できることを示す。
本稿では,悲観的批判が偏りのない条件を抽出するための検証ペシミズム学習(VPL)アルゴリズムを提案する。
VPLは、エージェントトレーニングを通してペシミズムのレベルを調整するために、小さなバリデーションバッファを使用し、批判対象の近似誤差を最小限に抑えるように悲観的セットをセットする。
- 参考スコア(独自算出の注目度): 1.5022206231191775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we investigate the issue of error accumulation in critic
networks updated via pessimistic temporal difference objectives. We show that
the critic approximation error can be approximated via a recursive fixed-point
model similar to that of the Bellman value. We use such recursive definition to
retrieve the conditions under which the pessimistic critic is unbiased.
Building on these insights, we propose Validation Pessimism Learning (VPL)
algorithm. VPL uses a small validation buffer to adjust the levels of pessimism
throughout the agent training, with the pessimism set such that the
approximation error of the critic targets is minimized. We investigate the
proposed approach on a variety of locomotion and manipulation tasks and report
improvements in sample efficiency and performance.
- Abstract(参考訳): 本稿では,悲観的時間差目標を用いて更新された批評家ネットワークにおけるエラー蓄積問題について検討する。
本稿では,ベルマン値に類似した再帰的不動点モデルを用いて,評価誤差を近似できることを示す。
このような再帰的定義を用いて、悲観的批判が偏りのない条件を抽出する。
これらの知見に基づいて,検証ペシミズム学習(VPL)アルゴリズムを提案する。
VPLは、エージェントトレーニングを通してペシミズムのレベルを調整するために小さなバリデーションバッファを使用し、批判対象の近似誤差を最小限に抑えるように悲観的セットをセットする。
様々な動作・操作タスクに対する提案手法について検討し,サンプル効率と性能の改善について報告する。
関連論文リスト
- Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。
本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。
本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T11:47:56Z) - Self-Evolutionary Large Language Models through Uncertainty-Enhanced Preference Optimization [9.618391485742968]
反復的選好最適化は、最近、大規模言語モデル(LLM)のデファクトトレーニングパラダイムの1つになっている。
我々は、信頼性の高いフィードバックでLLMを自己進化させる不確実性のあるtextbfPreference textbfOptimizationフレームワークを提案する。
筆者らのフレームワークは,ノイズ問題を大幅に軽減し,反復的選好最適化の性能を向上させる。
論文 参考訳(メタデータ) (2024-09-17T14:05:58Z) - Explicit Lipschitz Value Estimation Enhances Policy Robustness Against Perturbation [2.2120851074630177]
ロボット制御タスクでは、シミュレーションにおいて強化学習(RL)によって訓練されたポリシーは、物理ハードウェアにデプロイされた場合、しばしばパフォーマンス低下を経験する。
リプシッツ正則化は、近似値関数勾配の条件付けに役立ち、訓練後のロバスト性の向上につながる。
論文 参考訳(メタデータ) (2024-04-22T05:01:29Z) - Outlier-Insensitive Kalman Filtering: Theory and Applications [26.889182816155838]
本稿では,リニアカルマンフィルタの標準更新ステップの短い反復処理しか必要とせず,アウトリーチの有害な影響を軽減できるパラメータフリーアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-18T06:33:28Z) - Learned ISTA with Error-based Thresholding for Adaptive Sparse Coding [58.73333095047114]
学習用ISTA(LISTA)のためのエラーベースのしきい値設定機構を提案する。
提案手法は, 縮小関数の学習可能なパラメータを再構成誤差からよく切り離していることを示す。
論文 参考訳(メタデータ) (2021-12-21T05:07:54Z) - Error Controlled Actor-Critic [7.936003142729818]
値関数の誤差は必然的に過大評価現象を引き起こし、アルゴリズムの収束に悪影響を及ぼす。
本稿では,値関数の近似誤差を補正する誤り制御アクタ批判を提案する。
論文 参考訳(メタデータ) (2021-09-06T14:51:20Z) - Unifying Gradient Estimators for Meta-Reinforcement Learning via
Off-Policy Evaluation [53.83642844626703]
オフ・ポリシー評価に基づいて,高次値関数の高次微分を推定するための統一フレームワークを提供する。
本フレームワークは, ヘッセン推定の偏りと分散トレードオフを解明する特別事例として, 多くの先行的アプローチを解釈する。
論文 参考訳(メタデータ) (2021-06-24T15:58:01Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。