論文の概要: Automating Control of Overestimation Bias for Continuous Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2110.13523v1
- Date: Tue, 26 Oct 2021 09:27:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-28 00:23:57.786353
- Title: Automating Control of Overestimation Bias for Continuous Reinforcement
Learning
- Title(参考訳): 連続強化学習のための過大評価バイアスの自動制御
- Authors: Arsenii Kuznetsov, Alexander Grishin, Artem Tsypin, Arsenii Ashukha,
Dmitry Vetrov
- Abstract要約: バイアス補正を導くためのデータ駆動型手法を提案する。
我々は、最先端の連続制御アルゴリズムであるTrncated Quantile Criticsにおいて、その効果を実証する。
- 参考スコア(独自算出の注目度): 65.63607016094305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bias correction techniques are used by most of the high-performing methods
for off-policy reinforcement learning. However, these techniques rely on a
pre-defined bias correction policy that is either not flexible enough or
requires environment-specific tuning of hyperparameters. In this work, we
present a simple data-driven approach for guiding bias correction. We
demonstrate its effectiveness on the Truncated Quantile Critics -- a
state-of-the-art continuous control algorithm. The proposed technique can
adjust the bias correction across environments automatically. As a result, it
eliminates the need for an extensive hyperparameter search, significantly
reducing the actual number of interactions and computation.
- Abstract(参考訳): バイアス補正技術は、オフポリシー強化学習の高パフォーマンス手法の多くで使用されている。
しかし、これらの手法は、十分に柔軟でない、あるいは環境固有のハイパーパラメータのチューニングを必要とする、事前に定義されたバイアス補正ポリシーに依存している。
本稿では,バイアス修正を導くための単純なデータ駆動アプローチを提案する。
我々は、最先端の連続制御アルゴリズムであるTrncated Quantile Criticsの有効性を実証する。
提案手法は,環境間のバイアス補正を自動的に調整する。
その結果、広範にハイパーパラメーター探索を行う必要がなくなり、実際の相互作用数や計算量が大幅に削減される。
関連論文リスト
- Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - An Empirical Analysis of Parameter-Efficient Methods for Debiasing
Pre-Trained Language Models [55.14405248920852]
各種言語モデルとバイアスタイプを用いたプレフィックスチューニング,プロンプトチューニング,アダプタチューニングによる実験を行い,その性能評価を行った。
パラメータ効率のよい手法は、適応調整が常に最も効果的であるジェンダーバイアスを軽減するのに有効であることがわかった。
また、早急なチューニングは、BERTよりもGPT-2に適しており、人種的・宗教的偏見に関しては、人種的・宗教的偏見が低いことが判明した。
論文 参考訳(メタデータ) (2023-06-06T23:56:18Z) - Efficient Deep Reinforcement Learning Requires Regulating Overfitting [91.88004732618381]
本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。
検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
論文 参考訳(メタデータ) (2023-04-20T17:11:05Z) - Adaptively Calibrated Critic Estimates for Deep Reinforcement Learning [36.643572071860554]
適応校正批判(ACC)と呼ばれる一般的な手法を提案する。
ACCは、最も最近の高分散であるが、政治的に偏りのないロールアウトを使用して、低分散時間差ターゲットのバイアスを軽減する。
ACC は TD3 にさらに適用することで非常に汎用的であり、この設定でも性能が向上していることを示す。
論文 参考訳(メタデータ) (2021-11-24T18:07:33Z) - Parameter-Free Deterministic Reduction of the Estimation Bias in
Continuous Control [0.0]
パラメータフリーで新しいQ-ラーニングバリアントを導入し、この過小評価バイアスを連続制御に還元する。
我々は、MuJoCoとBox2Dの連続制御タスクのセットで改善性能をテストする。
論文 参考訳(メタデータ) (2021-09-24T07:41:07Z) - Semantic Perturbations with Normalizing Flows for Improved
Generalization [62.998818375912506]
我々は、非教師付きデータ拡張を定義するために、潜在空間における摂動が利用できることを示す。
トレーニングを通して分類器に適応する潜伏性対向性摂動が最も効果的であることが判明した。
論文 参考訳(メタデータ) (2021-08-18T03:20:00Z) - Efficient Hyperparameter Tuning with Dynamic Accuracy Derivative-Free
Optimization [0.27074235008521236]
我々は,最近の動的精度微分自由最適化法をハイパーパラメータチューニングに適用する。
この方法は、収束保証を維持しながら、学習問題の不正確な評価を可能にする。
固定精度アプローチと比較して頑健さと効率性を実証する。
論文 参考訳(メタデータ) (2020-11-06T00:59:51Z) - Technical Report: Adaptive Control for Linearizable Systems Using
On-Policy Reinforcement Learning [41.24484153212002]
本稿では,未知システムに対するフィードバック線形化に基づくトラッキング制御系を適応的に学習するフレームワークを提案する。
学習した逆モデルがすべての時点において可逆である必要はない。
二重振り子の模擬例は、提案された理論の有用性を示している。
論文 参考訳(メタデータ) (2020-04-06T15:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。