論文の概要: Action Candidate Driven Clipped Double Q-learning for Discrete and
Continuous Action Tasks
- arxiv url: http://arxiv.org/abs/2203.11526v1
- Date: Tue, 22 Mar 2022 07:58:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-23 13:13:48.328432
- Title: Action Candidate Driven Clipped Double Q-learning for Discrete and
Continuous Action Tasks
- Title(参考訳): 離散的・連続的な行動課題に対する行動候補駆動型ダブルQ-ラーニング
- Authors: Haobo Jiang, Jin Xie, and Jian Yang
- Abstract要約: Clipped Double Q-learningは、Double Q-learningの効果的な亜種である。
クリップされた二重推定器の過小評価バイアスのため、クリップされた二重Q-ラーニングはいくつかの環境で劣化する可能性がある。
ダブルQ-ラーニングのためのアクション候補に基づくクリップ付き二重推定器を提案する。
- 参考スコア(独自算出の注目度): 25.171890194480138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Double Q-learning is a popular reinforcement learning algorithm in Markov
decision process (MDP) problems. Clipped Double Q-learning, as an effective
variant of Double Q-learning, employs the clipped double estimator to
approximate the maximum expected action value. Due to the underestimation bias
of the clipped double estimator, the performance of clipped Double Q-learning
may be degraded in some stochastic environments. In this paper, in order to
reduce the underestimation bias, we propose an action candidate-based clipped
double estimator for Double Q-learning. Specifically, we first select a set of
elite action candidates with high action values from one set of estimators.
Then, among these candidates, we choose the highest valued action from the
other set of estimators. Finally, we use the maximum value in the second set of
estimators to clip the action value of the chosen action in the first set of
estimators and the clipped value is used for approximating the maximum expected
action value. Theoretically, the underestimation bias in our clipped Double
Q-learning decays monotonically as the number of action candidates decreases.
Moreover, the number of action candidates controls the trade-off between the
overestimation and underestimation biases. In addition, we also extend our
clipped Double Q-learning to continuous action tasks via approximating the
elite continuous action candidates. We empirically verify that our algorithm
can more accurately estimate the maximum expected action value on some toy
environments and yield good performance on several benchmark problems.
- Abstract(参考訳): 二重Q学習はマルコフ決定過程(MDP)問題において一般的な強化学習アルゴリズムである。
clipped double q-learning は double q-learning の効果的な変種であり、最大期待アクション値の近似に clipped double estimator を用いる。
クリッピングされた二重推定器の過小評価バイアスのため、クリッピングされた二重Q-ラーニングの性能は確率的な環境で低下する可能性がある。
本稿では,過大評価バイアスを軽減するために,ダブルq学習のためのアクション候補ベースのクリップ型2重推定器を提案する。
具体的には,まず,一組の推定器から高い行動値を持つエリート行動候補を選定する。
そして、これらの候補の中から、他の評価指標から最も価値の高い行動を選択する。
最後に,第2の推定器の最大値を用いて第1の推定器における選択された動作の動作値をクリップし,そのクリップ値を用いて最大期待動作値を近似する。
理論的には、クリップされたダブルq学習における過大評価バイアスは、アクション候補の数の減少とともに単調に減少する。
さらに、アクション候補の数は過大評価と過小評価バイアスの間のトレードオフを制御する。
さらに私たちは,エリートな継続的アクション候補を近似することで,クリップされたダブルq-ラーニングを継続的アクションタスクにも拡張しています。
実験により,本アルゴリズムが玩具環境における最大動作値をより正確に推定し,いくつかのベンチマーク問題に対して良好な性能が得られることを検証した。
関連論文リスト
- Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling [51.38330727868982]
双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。
BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Uncertainty-Driven Action Quality Assessment [67.20617610820857]
本稿では,複数の判定スコアの多様性を捉えるために,不確実性駆動型AQA (UD-AQA) という新しい確率モデルを提案する。
我々は,AQA回帰損失の再重み付けに使用される各予測の不確かさを推定する。
提案手法は,オリンピックイベントMTL-AQAとFineDivingの3つのベンチマークと,手術スキルJIGSAWSデータセットの3つのベンチマークで比較結果を得た。
論文 参考訳(メタデータ) (2022-07-29T07:21:15Z) - Simultaneous Double Q-learning with Conservative Advantage Learning for
Actor-Critic Methods [133.85604983925282]
保守的アドバンテージ学習(SDQ-CAL)を用いた同時二重Q-ラーニングを提案する。
提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T09:17:16Z) - Temporal-Difference Value Estimation via Uncertainty-Guided Soft Updates [110.92598350897192]
Q-Learningは、制御タスクを実行するポリシーを学ぶのに効果的であることが証明されている。
推定ノイズは、政策改善ステップにおける最大演算子の後、バイアスとなる。
UQL(Unbiased Soft Q-Learning)は、2つのアクション、有限状態空間からマルチアクション、無限状態マルコフ決定プロセスまで、EQLの作業を拡張する。
論文 参考訳(メタデータ) (2021-10-28T00:07:19Z) - On the Estimation Bias in Double Q-Learning [20.856485777692594]
二重Q学習は完全にバイアスがなく、過小評価バイアスに悩まされている。
そのような過小評価バイアスは、近似されたベルマン作用素の下で複数の最適でない不動点をもたらす可能性があることを示す。
ダブルQ-ラーニングにおける過小評価バイアスに対する部分修正として,単純だが効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-29T13:41:24Z) - Estimation Error Correction in Deep Reinforcement Learning for
Deterministic Actor-Critic Methods [0.0]
価値に基づく深層強化学習法では、値関数の近似は過大評価バイアスを誘発し、準最適ポリシーをもたらす。
過大評価バイアスを克服することを目的とした深いアクター批判的手法では,エージェントが受信した強化信号に高いばらつきがある場合,顕著な過大評価バイアスが発生することを示す。
過小評価を最小限に抑えるため,パラメータフリーで新しいQ-ラーニングモデルを提案する。
論文 参考訳(メタデータ) (2021-09-22T13:49:35Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - Action Candidate Based Clipped Double Q-learning for Discrete and
Continuous Action Tasks [21.686015853476487]
ダブルQ-ラーニングは、マルコフ決定プロセス(MDP)問題における一般的な強化学習アルゴリズムです。
クリップ型2重推定器の過小評価バイアスのため、クリップ型2重q学習の性能はいくつかの環境で低下する可能性がある。
ダブルQ-ラーニングのためのアクション候補に基づくクリップダブル推定器を提案する。
論文 参考訳(メタデータ) (2021-05-03T09:26:49Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Decorrelated Double Q-learning [4.982806898121435]
本稿では,D2Q(Decorrelated Double Q-learning)を導入し,値関数近似器間の相関を小さくする。
MuJoCo連続制御タスクのスイートにおける実験結果から,非相関な二重Q-ラーニングが性能を効果的に向上することを示した。
論文 参考訳(メタデータ) (2020-06-12T05:59:05Z) - Maxmin Q-learning: Controlling the Estimation Bias of Q-learning [31.742397178618624]
過大評価バイアスは、最大推定アクション値を用いて最大アクション値を近似するため、Q-ラーニングに影響を与える。
バイアスを柔軟に制御するためのパラメータを提供するemphMaxmin Q-learningと呼ばれるQ-ラーニングの一般化を提案する。
提案アルゴリズムは,おもちゃの環境における推定バイアスをよりよく制御し,いくつかのベンチマーク問題において優れた性能が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-02-16T02:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。