論文の概要: SQT -- std $Q$-target
- arxiv url: http://arxiv.org/abs/2402.05950v3
- Date: Sun, 2 Jun 2024 19:39:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 18:53:33.895645
- Title: SQT -- std $Q$-target
- Title(参考訳): SQT -- std $Q$-target
- Authors: Nitsan Soffair, Dotan Di-Castro, Orly Avner, Shie Mannor,
- Abstract要約: Std $Q$-targetは、保守的でアクター批判的でアンサンブルで、Q$ラーニングベースのアルゴリズムである。
我々は、TD3/TD7コード上にSQTを実装し、最先端(SOTA)アクター批判アルゴリズムに対してテストする。
SQT の $Q$-target 式は TD3 の $Q$-target 式よりも優れており,RL の過大評価バイアスに対する保守的解である。
- 参考スコア(独自算出の注目度): 47.3621151424817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Std $Q$-target is a conservative, actor-critic, ensemble, $Q$-learning-based algorithm, which is based on a single key $Q$-formula: $Q$-networks standard deviation, which is an "uncertainty penalty", and, serves as a minimalistic solution to the problem of overestimation bias. We implement SQT on top of TD3/TD7 code and test it against the state-of-the-art (SOTA) actor-critic algorithms, DDPG, TD3 and TD7 on seven popular MuJoCo and Bullet tasks. Our results demonstrate SQT's $Q$-target formula superiority over TD3's $Q$-target formula as a conservative solution to overestimation bias in RL, while SQT shows a clear performance advantage on a wide margin over DDPG, TD3, and TD7 on all tasks.
- Abstract(参考訳): Std $Q$-targetは、保守的でアクター批判的でアンサンブルな$Q$-learningベースのアルゴリズムであり、単一のキーである$Q$-formula: $Q$-networks標準偏差に基づいている。
我々は、TD3/TD7コード上にSQTを実装し、7つの一般的な MuJoCo タスクと Bullet タスクにおいて、最先端(SOTA)アクター批判アルゴリズムである DDPG,TD3,TD7 に対してテストする。
SQTは, DDPG, TD3, TD7に対して, DDPG, TD7よりも高い性能を示す一方, TD3 の $Q$-target 式よりも, RL の過大評価バイアスに対する保守的解法として優れていることを示す。
関連論文リスト
- Transfer Q Star: Principled Decoding for LLM Alignment [105.89114186982972]
Transfer $Q*$は、ベースラインモデルを通してターゲット報酬$r$の最適値関数を推定する。
提案手法は, 従来のSoTA法で観測された準最適差を著しく低減する。
論文 参考訳(メタデータ) (2024-05-30T21:36:12Z) - Conservative DDPG -- Pessimistic RL without Ensemble [48.61228614796803]
DDPGは過大評価バイアス問題によって妨げられている。
このバイアスに対する伝統的な解決策は、アンサンブルに基づく方法を含んでいる。
本稿では,Q$-targetと行動クローン(BC)損失ペナルティを組み込んだ簡単なソリューションを提案する。
論文 参考訳(メタデータ) (2024-03-08T23:59:38Z) - MinMaxMin $Q$-learning [48.61228614796803]
MinMaxMin $Q$-learningは、過大評価バイアスの問題に対処する新しい楽観的アクター・クリティカルアルゴリズムである。
我々はTD3とTD7の上にMinMaxMinを実装し、最先端の連続空間アルゴリズムに対して厳密なテストを行う。
その結果、すべてのテストタスクでDDPG、TD3、TD7よりもMinMaxMinが一貫したパフォーマンス向上を示した。
論文 参考訳(メタデータ) (2024-02-03T21:58:06Z) - DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs [9.561022942046279]
大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。
まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。
特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
論文 参考訳(メタデータ) (2024-01-10T14:38:46Z) - Scalable implementation of $(d+1)$ mutually unbiased bases for
$d$-dimensional quantum key distribution [0.0]
高次元量子鍵分布(QKD)は、エラーレート耐性と秘密鍵レートを改善することができる。
多くの$d$次元QKDは2つの相互非バイアスベース(MUB)を使用している。
本稿では,最大電力次元における$log_p d$干渉計を用いた$(d+1)$ MUBのスケーラブルで汎用的な実装を提案する。
論文 参考訳(メタデータ) (2022-04-06T09:39:55Z) - Polyak-Ruppert Averaged Q-Leaning is Statistically Efficient [90.14768299744792]
我々はPolyak-Ruppert 平均 Q-leaning (平均 Q-leaning) を用いた同期 Q-learning を$gamma$-discounted MDP で検討した。
繰り返し平均$barboldsymbolQ_T$に対して正規性を確立する。
要するに、我々の理論分析は、Q-Leaningの平均は統計的に効率的であることを示している。
論文 参考訳(メタデータ) (2021-12-29T14:47:56Z) - Minimal Expected Regret in Linear Quadratic Control [79.81807680370677]
オンライン学習アルゴリズムを考案し、その期待された後悔を保証します。
当時のこの後悔は、$A$と$B$が未知の場合、$widetildeO((d_u+d_x)sqrtd_xT)$によって上界(i)となる。
論文 参考訳(メタデータ) (2021-09-29T14:07:21Z) - A Provably-Efficient Model-Free Algorithm for Constrained Markov
Decision Processes [13.877420496703627]
本稿では,制約付きマルコフ決定過程(CMDP)に対するモデルフリーでシミュレータフリーな強化学習アルゴリズムを提案する。
このアルゴリズムは、累積報酬のQ-関数、制約の累積効用Q-関数、累積制約違反を推定する仮想キューの3つの主要な成分を持つため、トリプルQと名付けられた。
論文 参考訳(メタデータ) (2021-06-03T03:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。