論文の概要: SALE-Based Offline Reinforcement Learning with Ensemble Q-Networks
- arxiv url: http://arxiv.org/abs/2501.03676v2
- Date: Sun, 12 Jan 2025 09:40:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:27:56.756670
- Title: SALE-Based Offline Reinforcement Learning with Ensemble Q-Networks
- Title(参考訳): 組込みQ-NetworksによるSALEに基づくオフライン強化学習
- Authors: Zheng Chun,
- Abstract要約: 本稿では, EDAC から, アンサンブル Q-networks と勾配多様性ペナルティを統合したモデルフリーアクタ批判アルゴリズムを提案する。
提案アルゴリズムは,既存手法に比べて収束速度,安定性,性能の向上を実現している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In this work, we build upon the offline reinforcement learning algorithm TD7, which incorporates State-Action Learned Embeddings (SALE) and a prioritized experience replay buffer (LAP). We propose a model-free actor-critic algorithm that integrates ensemble Q-networks and a gradient diversity penalty from EDAC. The ensemble Q-networks introduce penalties to guide the actor network toward in-distribution actions, effectively addressing the challenge of out-of-distribution actions. Meanwhile, the gradient diversity penalty encourages diverse Q-value gradients, further suppressing overestimation for out-of-distribution actions. Additionally, our method retains an adjustable behavior cloning (BC) term that directs the actor network toward dataset actions during early training stages, while gradually reducing its influence as the precision of the Q-ensemble improves. These enhancements work synergistically to improve the stability and precision of the training. Experimental results on the D4RL MuJoCo benchmarks demonstrate that our algorithm achieves higher convergence speed, stability, and performance compared to existing methods.
- Abstract(参考訳): 本研究では、ステートアクション学習埋め込み(SALE)と優先経験再生バッファ(LAP)を組み込んだオフライン強化学習アルゴリズムTD7を構築した。
本稿では, EDAC から, アンサンブル Q-networks と勾配多様性ペナルティを統合したモデルフリーアクタ批判アルゴリズムを提案する。
アンサンブルのQ-ネットワークスでは、アクターネットワークを非分配行動へと導くために罰則を導入し、アウト・オブ・ディストリビューション行動の課題に効果的に対処する。
一方、勾配の多様性のペナルティは様々なQ値の勾配を奨励し、アウト・オブ・ディストリビューション・アクションの過大評価をさらに抑制する。
さらに,本手法は,Qアンサンブルの精度が向上するにつれて,その影響を徐々に減少させつつ,早期訓練期間中にアクターネットワークをデータセットアクションに誘導する調整可能な行動クローニング(BC)項を保持する。
これらの強化は、訓練の安定性と精度を改善するために相乗的に働く。
D4RL MuJoCoベンチマークの実験結果から,本アルゴリズムは既存手法と比較して収束速度,安定性,性能が向上することが示された。
関連論文リスト
- Scaling Off-Policy Reinforcement Learning with Batch and Weight Normalization [15.605124749589946]
CrossQは,更新データ(UTD)比が1。
より高UTD比で強調されるトレーニングダイナミクスの課題を明らかにする。
提案手法はUTD比の増大とともに確実にスケールし,25の難易度連続制御タスクにまたがる競争性能を達成する。
論文 参考訳(メタデータ) (2025-02-11T12:55:32Z) - SPEQ: Stabilization Phases for Efficient Q-Learning in High Update-To-Data Ratio Reinforcement Learning [51.10866035483686]
最近のオフポリシーアルゴリズムは、更新からデータへの比率を高め、環境相互作用ごとにより勾配の更新を行うことで、サンプル効率を向上させる。
これにより、サンプル効率が向上するが、必要な勾配更新の数が増えるため、計算コストが大幅に向上する。
本稿では,学習を異なる学習段階に分割することで,計算効率を向上させるためのサンプル効率向上手法を提案する。
論文 参考訳(メタデータ) (2025-01-15T09:04:19Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Swapped goal-conditioned offline reinforcement learning [8.284193221280216]
本稿では、決定論的Qアドバンテージポリシー勾配(DQAPG)と呼ばれる一般的なオフライン強化学習手法を提案する。
実験では、DQAPGは様々なベンチマークタスクにおいて、最先端のゴール条件付きオフラインRLメソッドよりも優れている。
論文 参考訳(メタデータ) (2023-02-17T13:22:40Z) - Actor Prioritized Experience Replay [0.0]
優先度付き体験再生(PER)では、エージェントは時間差誤差(TD)に比例した非一様確率でサンプリングされた遷移から学習することができる。
本稿では,アクター・クリティカルな手法に対する新しい経験リプレイ・サンプリング・フレームワークを紹介し,安定性の問題やPERの実証的性能の低下の背景にある最近の知見についても考察する。
我々の理論的主張を検証し、導入した手法が競合するアプローチを著しく上回ることを示した。
論文 参考訳(メタデータ) (2022-09-01T15:27:46Z) - Simultaneous Double Q-learning with Conservative Advantage Learning for
Actor-Critic Methods [133.85604983925282]
保守的アドバンテージ学習(SDQ-CAL)を用いた同時二重Q-ラーニングを提案する。
提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T09:17:16Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Distributional Soft Actor-Critic: Off-Policy Reinforcement Learning for
Addressing Value Estimation Errors [13.534873779043478]
本稿では,Q値過大評価を緩和し,ポリシー性能を向上させるための分散型ソフトアクター・クリティック(DSAC)アルゴリズムを提案する。
我々は,MuJoCo連続制御タスクのスイート上でDSACを評価し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-01-09T02:27:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。