論文の概要: Eigensubspace of Temporal-Difference Dynamics and How It Improves Value
Approximation in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.16750v1
- Date: Thu, 29 Jun 2023 07:47:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 14:17:46.159353
- Title: Eigensubspace of Temporal-Difference Dynamics and How It Improves Value
Approximation in Reinforcement Learning
- Title(参考訳): 時間差動の固有部分空間と強化学習における価値近似の改善
- Authors: Qiang He and Tianyi Zhou and Meng Fang and Setareh Maghsudi
- Abstract要約: Eigensubspace Regularized Critic (ERC) はQ値近似誤差の動的解析によって動機付けられる。
本研究では,ERCが値関数の分散を効果的に減少させることを示す。
これはQ値近似と分散還元において大きな利点を示す。
- 参考スコア(独自算出の注目度): 39.17780238319454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel value approximation method, namely Eigensubspace
Regularized Critic (ERC) for deep reinforcement learning (RL). ERC is motivated
by an analysis of the dynamics of Q-value approximation error in the
Temporal-Difference (TD) method, which follows a path defined by the
1-eigensubspace of the transition kernel associated with the Markov Decision
Process (MDP). It reveals a fundamental property of TD learning that has
remained unused in previous deep RL approaches. In ERC, we propose a
regularizer that guides the approximation error tending towards the
1-eigensubspace, resulting in a more efficient and stable path of value
approximation. Moreover, we theoretically prove the convergence of the ERC
method. Besides, theoretical analysis and experiments demonstrate that ERC
effectively reduces the variance of value functions. Among 26 tasks in the
DMControl benchmark, ERC outperforms state-of-the-art methods for 20. Besides,
it shows significant advantages in Q-value approximation and variance
reduction. Our code is available at https://sites.google.com/view/erc-ecml23/.
- Abstract(参考訳): 深部強化学習(RL)のための新しい値近似法,すなわち固有部分空間正規化批判(ERC)を提案する。
ERCは、マルコフ決定プロセス(MDP)に関連する遷移カーネルの1-固有部分空間で定義される経路に従う、時間差分法(TD)法におけるQ値近似誤差のダイナミクスの解析によって動機付けられる。
これは、以前のdeep rlアプローチで使われていないtd学習の基本特性を明らかにする。
ercでは、1-固有部分空間に傾向を持つ近似誤差を導く正則化器を提案し、より効率的で安定な値近似経路を導出する。
さらに、理論的にERC法の収束を証明した。
さらに、理論的解析と実験により、ERCは値関数の分散を効果的に減少させることを示した。
DMControlベンチマークの26のタスクのうち、ERCは20の最先端メソッドよりも優れています。
さらに、Q値近似と分散還元において大きな利点を示す。
私たちのコードはhttps://sites.google.com/view/erc-ecml23/で利用可能です。
関連論文リスト
- Conformal Risk Minimization with Variance Reduction [37.74931189657469]
コンフォーマル予測(CP)は、ブラックボックスモデルにおける確率的保証を達成するための分布自由フレームワークである。
最近の研究は、トレーニング中のCP効率の最適化に重点を置いている。
我々は、この概念を共形リスク最小化の問題として定式化する。
論文 参考訳(メタデータ) (2024-11-03T21:48:15Z) - Fast Value Tracking for Deep Reinforcement Learning [7.648784748888187]
強化学習(Reinforcement Learning, RL)は、環境と対話するエージェントを作成することによって、シーケンシャルな意思決定問題に取り組む。
既存のアルゴリズムはしばしばこれらの問題を静的とみなし、期待される報酬を最大化するためにモデルパラメータの点推定に重点を置いている。
我々の研究は、カルマンパラダイムを活用して、Langevinized Kalman TemporalTDと呼ばれる新しい定量化およびサンプリングアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-03-19T22:18:19Z) - Critic-Guided Decision Transformer for Offline Reinforcement Learning [28.211835303617118]
CGDT(Critical-Guided Decision Transformer)
決定変換器の軌道モデリング機能を備えた値ベース手法からの長期的な戻り値の予測可能性を利用する。
これらの知見に基づいて,提案手法は,値に基づく手法からの長期的なリターンの予測可能性と,決定変換器の軌道モデリング能力を組み合わせた新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-21T10:29:17Z) - Normality-Guided Distributional Reinforcement Learning for Continuous
Control [16.324313304691426]
平均戻り値の予測モデル、すなわち値関数の学習は多くの強化学習アルゴリズムにおいて重要な役割を果たす。
本研究では,複数の連続制御タスクにおける値分布について検討し,学習した値分布が正規に非常に近いことを示す。
本稿では,標準値関数に存在しない値分布の構造的特性によって測定された正当性に基づくポリシー更新戦略を提案する。
論文 参考訳(メタデータ) (2022-08-28T02:52:10Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Robust Learning via Persistency of Excitation [4.674053902991301]
勾配勾配勾配を用いたネットワークトレーニングは力学系パラメータ推定問題と等価であることを示す。
極値理論を用いて対応するリプシッツ定数を推定する効率的な手法を提案する。
我々の手法は、様々な最先端の対数訓練モデルにおいて、対数精度を0.1%から0.3%に普遍的に向上させる。
論文 参考訳(メタデータ) (2021-06-03T18:49:05Z) - Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。
DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。
有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文 参考訳(メタデータ) (2021-02-23T18:56:13Z) - A Kernel-Based Approach to Non-Stationary Reinforcement Learning in
Metric Spaces [53.47210316424326]
KeRNSは、非定常マルコフ決定過程におけるエピソード強化学習のためのアルゴリズムである。
我々は、状態-作用空間の被覆次元と時間とともにMDPの総変動にスケールする後悔境界を証明した。
論文 参考訳(メタデータ) (2020-07-09T21:37:13Z) - Approximation Algorithms for Sparse Principal Component Analysis [57.5357874512594]
主成分分析(PCA)は、機械学習と統計学において広く使われている次元削減手法である。
スパース主成分分析(Sparse principal Component Analysis)と呼ばれる,スパース主成分負荷を求める様々な手法が提案されている。
本研究では,SPCA問題に対するしきい値の精度,時間,近似アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-23T04:25:36Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。