論文の概要: Controlling Overestimation Bias with Truncated Mixture of Continuous
Distributional Quantile Critics
- arxiv url: http://arxiv.org/abs/2005.04269v1
- Date: Fri, 8 May 2020 19:52:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 11:31:27.616211
- Title: Controlling Overestimation Bias with Truncated Mixture of Continuous
Distributional Quantile Critics
- Title(参考訳): 連続分布量的批評家の混和混合による過推定バイアスの制御
- Authors: Arsenii Kuznetsov, Pavel Shvechikov, Alexander Grishin, Dmitry Vetrov
- Abstract要約: 過大評価バイアスは、政治以外の学習を正確にするための主要な障害の1つである。
本稿では,連続制御環境における過大評価バイアスを軽減する新しい手法について検討する。
我々の方法--Truncated Quantile Critics, TQC----は、批評家の分布表現、批評家予測の切り離し、複数の批評家のアンサンブルの3つの考えを反映している。
- 参考スコア(独自算出の注目度): 65.51757376525798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The overestimation bias is one of the major impediments to accurate
off-policy learning. This paper investigates a novel way to alleviate the
overestimation bias in a continuous control setting. Our method---Truncated
Quantile Critics, TQC,---blends three ideas: distributional representation of a
critic, truncation of critics prediction, and ensembling of multiple critics.
Distributional representation and truncation allow for arbitrary granular
overestimation control, while ensembling provides additional score
improvements. TQC outperforms the current state of the art on all environments
from the continuous control benchmark suite, demonstrating 25% improvement on
the most challenging Humanoid environment.
- Abstract(参考訳): 過大評価バイアスは、正確なオフポリシー学習の障害の1つです。
本稿では,連続制御環境での過大評価バイアスを緩和する新しい手法について検討する。
我々の方法--Truncated Quantile Critics, TQC----は、批評家の分布表現、批評家予測の切り離し、複数の批評家のアンサンブルの3つの考えを反映している。
分布表現とトランケーションは任意の粒度の過大評価制御を可能にし、アンサンブルはさらなるスコア改善を提供する。
tqcは、連続制御ベンチマークスイートのすべての環境における現在の技術よりも優れており、最も挑戦的なヒューマノイド環境において25%の改善を示している。
関連論文リスト
- Contrastive CFG: Improving CFG in Diffusion Models by Contrasting Positive and Negative Concepts [55.298031232672734]
As-Free Guidance (CFG) は条件拡散モデルサンプリングに有効であることが証明された。
対照的な損失を用いた負のCFG誘導を強化する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T03:29:27Z) - On Centralized Critics in Multi-Agent Reinforcement Learning [16.361249170514828]
分散実行のためのトレーニングは、マルチエージェント強化学習において一般的なアプローチとなっている。
我々は、部分的に観察可能な環境において、状態ベースの批評家を使うことの効果を分析する。
論文 参考訳(メタデータ) (2024-08-26T19:27:06Z) - A Deeper Understanding of State-Based Critics in Multi-Agent
Reinforcement Learning [17.36759906285316]
我々は、州ベースの批評家が政策推定に偏見を導入し、アルゴリズムの保証を損なう可能性があることを示す。
また、州ベースの批判者が偏見を示さないとしても、共通の直観とは対照的に、大きな勾配のばらつきをもたらす可能性があることも示している。
論文 参考訳(メタデータ) (2022-01-03T14:51:30Z) - Assessment of Treatment Effect Estimators for Heavy-Tailed Data [70.72363097550483]
ランダム化制御試験(RCT)における治療効果の客観的評価における中心的な障害は、その性能をテストするための基礎的真理(または検証セット)の欠如である。
この課題に対処するための新しいクロスバリデーションのような方法論を提供する。
本手法は,Amazonサプライチェーンに実装された709RCTに対して評価を行った。
論文 参考訳(メタデータ) (2021-12-14T17:53:01Z) - Automating Control of Overestimation Bias for Continuous Reinforcement
Learning [65.63607016094305]
バイアス補正を導くためのデータ駆動型手法を提案する。
我々は、最先端の連続制御アルゴリズムであるTrncated Quantile Criticsにおいて、その効果を実証する。
論文 参考訳(メタデータ) (2021-10-26T09:27:12Z) - Parameter-Free Deterministic Reduction of the Estimation Bias in
Continuous Control [0.0]
パラメータフリーで新しいQ-ラーニングバリアントを導入し、この過小評価バイアスを連続制御に還元する。
我々は、MuJoCoとBox2Dの連続制御タスクのセットで改善性能をテストする。
論文 参考訳(メタデータ) (2021-09-24T07:41:07Z) - Estimation Error Correction in Deep Reinforcement Learning for
Deterministic Actor-Critic Methods [0.0]
価値に基づく深層強化学習法では、値関数の近似は過大評価バイアスを誘発し、準最適ポリシーをもたらす。
過大評価バイアスを克服することを目的とした深いアクター批判的手法では,エージェントが受信した強化信号に高いばらつきがある場合,顕著な過大評価バイアスが発生することを示す。
過小評価を最小限に抑えるため,パラメータフリーで新しいQ-ラーニングモデルを提案する。
論文 参考訳(メタデータ) (2021-09-22T13:49:35Z) - Efficient Continuous Control with Double Actors and Regularized Critics [7.072664211491016]
我々は,長期にわたって無視されてきた二重アクターの可能性を探り,連続的な設定におけるより良い値関数推定法を提案する。
我々は、DDPGの過大評価バイアスとTD3の過小評価バイアスに対処するため、シングル・批評家とダブル・批評家に二重アクターを構築した。
二重批評家による価値推定の不確実性を軽減するため、二重アクターアーキテクチャの下での批判ネットワークの正規化を提案する。
論文 参考訳(メタデータ) (2021-06-06T07:04:48Z) - Re-Assessing the "Classify and Count" Quantification Method [88.60021378715636]
分類とカウント(CC)は、しばしば偏りのある推定器である。
以前の作業では、CCの適切に最適化されたバージョンを適切に使用できなかった。
最先端の手法に劣っているものの、ほぼ最先端の精度を実現している、と我々は主張する。
論文 参考訳(メタデータ) (2020-11-04T21:47:39Z) - Prediction with Corrupted Expert Advice [67.67399390910381]
ステップサイズを減らした古典的乗法重みアルゴリズムの変種が、良質な環境において絶え間なく後悔することを証明する。
我々の結果は、しばしば同等のFollow the Regularized Leader(FTRL)とOnline Mirror Descent(OMD)フレームワークの驚くべき相違を明らかにします。
論文 参考訳(メタデータ) (2020-02-24T14:39:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。