論文の概要: Multi-State TD Target for Model-Free Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.16522v1
- Date: Sun, 26 May 2024 11:17:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 20:49:07.144962
- Title: Multi-State TD Target for Model-Free Reinforcement Learning
- Title(参考訳): モデルレス強化学習のための多状態TDターゲット
- Authors: Wuhao Wang, Zhiyong Chen, Lepeng Zhang,
- Abstract要約: 時間差(TD)学習は、状態または状態-作用ペアの値推定を更新する強化学習の基本的な技術である。
本稿では、その後の複数の状態の推定値を利用する拡張多状態TD(MSTD)ターゲットを提案する。
- 参考スコア(独自算出の注目度): 3.9801926395657325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal difference (TD) learning is a fundamental technique in reinforcement learning that updates value estimates for states or state-action pairs using a TD target. This target represents an improved estimate of the true value by incorporating both immediate rewards and the estimated value of subsequent states. Traditionally, TD learning relies on the value of a single subsequent state. We propose an enhanced multi-state TD (MSTD) target that utilizes the estimated values of multiple subsequent states. Building on this new MSTD concept, we develop complete actor-critic algorithms that include management of replay buffers in two modes, and integrate with deep deterministic policy optimization (DDPG) and soft actor-critic (SAC). Experimental results demonstrate that algorithms employing the MSTD target significantly improve learning performance compared to traditional methods.
- Abstract(参考訳): 時間差学習(TD learning)は、TDターゲットを用いて状態または状態-作用対の値推定を更新する強化学習の基本的な技術である。
このターゲットは、後続状態の即時報酬と推定値の両方を組み込むことにより、真の価値の見積もりを改善することを表す。
伝統的に、TD学習は後の1つの状態の価値に依存している。
本稿では、その後の複数の状態の推定値を利用する拡張多状態TD(MSTD)ターゲットを提案する。
この新たなMSTD概念に基づいて,リプレイバッファを2つのモードで管理し,深い決定論的ポリシー最適化(DDPG)とソフトアクタクリティカル(SAC)を統合した,完全なアクタ批判アルゴリズムを開発した。
実験結果から,MSTDを対象とするアルゴリズムは従来の手法に比べて学習性能を著しく向上することが示された。
関連論文リスト
- Discerning Temporal Difference Learning [5.439020425819001]
時間差分学習(TD)は強化学習の基礎概念である
我々は、識別型TD学習(DTD)と呼ばれる新しいTDアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T07:38:10Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Temporal Difference Learning for Model Predictive Control [29.217382374051347]
データ駆動モデル予測制御は、モデルフリーメソッドよりも2つの大きな利点がある。
TD-MPCは、状態と画像に基づく連続制御タスクの事前処理よりも、より優れたサンプリング効率と性能を実現する。
論文 参考訳(メタデータ) (2022-03-09T18:58:28Z) - A Generalized Bootstrap Target for Value-Learning, Efficiently Combining
Value and Feature Predictions [39.17511693008055]
値関数の推定は強化学習アルゴリズムのコアコンポーネントである。
値関数を推定する際に使用されるターゲットのブートストラップに焦点を当てる。
新たなバックアップターゲットである$eta$-returnmixを提案する。
論文 参考訳(メタデータ) (2022-01-05T21:54:55Z) - Centralizing State-Values in Dueling Networks for Multi-Robot
Reinforcement Learning Mapless Navigation [87.85646257351212]
本稿では,CTDE(Training and Decentralized Execution)パラダイムにおけるマルチロボットマップレスナビゲーションの問題点について考察する。
この問題は、各ロボットが観察を他のロボットと明示的に共有することなく、その経路を考えると困難である。
我々は,集中型状態値ネットワークを用いて共同状態値を計算するCTDEの新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-16T16:47:00Z) - Temporal-Difference Value Estimation via Uncertainty-Guided Soft Updates [110.92598350897192]
Q-Learningは、制御タスクを実行するポリシーを学ぶのに効果的であることが証明されている。
推定ノイズは、政策改善ステップにおける最大演算子の後、バイアスとなる。
UQL(Unbiased Soft Q-Learning)は、2つのアクション、有限状態空間からマルチアクション、無限状態マルコフ決定プロセスまで、EQLの作業を拡張する。
論文 参考訳(メタデータ) (2021-10-28T00:07:19Z) - DRILL-- Deep Reinforcement Learning for Refinement Operators in
$\mathcal{ALC}$ [1.9036571490366496]
本稿では,畳み込み型Q-ラーニングモデルを用いた新しいクラス表現学習手法DRILLを提案する。
そのアーキテクチャにより、DRILLは標準ハードウェア上で1秒で103ドル以上のクラス表現の期待値の累積的な将来の報酬を計算することができる。
論文 参考訳(メタデータ) (2021-06-29T12:57:45Z) - Preferential Temporal Difference Learning [53.81943554808216]
本稿では,TD更新における状態の再重み付け手法を提案する。
本手法は線形関数近似に収束し,他のTDスタイルの手法と比較して望ましい経験的挙動を示す。
論文 参考訳(メタデータ) (2021-06-11T17:05:15Z) - Experience Replay with Likelihood-free Importance Weights [123.52005591531194]
本研究は,現在の政策の定常分布下での経験を生かし,その可能性に基づいて,その経験を再評価することを提案する。
提案手法は,ソフトアクタ批判 (SAC) とツイン遅延Deep Deterministic Policy gradient (TD3) の2つの競合手法に実証的に適用する。
論文 参考訳(メタデータ) (2020-06-23T17:17:44Z) - Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。
ゼロ次監視政策改善(ZOSPI)を提案する。
ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文 参考訳(メタデータ) (2020-06-11T16:49:23Z) - Universal Value Density Estimation for Imitation Learning and
Goal-Conditioned Reinforcement Learning [5.406386303264086]
いずれの場合も、効果的な解法は、エージェントが指定された状態に確実に到達する必要がある。
この研究は、密度推定の最近の進歩を利用して、与えられた状態に到達することを効果的に学習するアプローチを導入する。
最初のコントリビューションとして、この手法を目標条件付き強化学習に使用し、それが効率的であり、ドメインの後方偏見に支障を来さないことを示す。
第2のコントリビューションとして、模倣学習へのアプローチを拡張し、標準的なベンチマークタスクにおける最先端のサンプル効率を実現することを示す。
論文 参考訳(メタデータ) (2020-02-15T23:46:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。