論文の概要: Enhancing Deep Deterministic Policy Gradients on Continuous Control Tasks with Decoupled Prioritized Experience Replay
- arxiv url: http://arxiv.org/abs/2512.05320v1
- Date: Thu, 04 Dec 2025 23:37:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.841371
- Title: Enhancing Deep Deterministic Policy Gradients on Continuous Control Tasks with Decoupled Prioritized Experience Replay
- Title(参考訳): 優先順位付けされたエクスペリエンスの再生を分離した継続的制御タスクにおける決定論的政策勾配の強化
- Authors: Mehmet Efe Lorasdagi, Dogan Can Cicek, Furkan Burak Mutlu, Suleyman Serdar Kozat,
- Abstract要約: Decoupled Prioritized Experience Replay (DPER)は、遷移バッチの独立したサンプリングを可能にする新しいアプローチである。
DPERは、継続的な制御ドメインで動作する、あらゆる非政治的な深層強化学習アルゴリズムに統合することができる。
- 参考スコア(独自算出の注目度): 3.716862357836751
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Background: Deep Deterministic Policy Gradient-based reinforcement learning algorithms utilize Actor-Critic architectures, where both networks are typically trained using identical batches of replayed transitions. However, the learning objectives and update dynamics of the Actor and Critic differ, raising concerns about whether uniform transition usage is optimal. Objectives: We aim to improve the performance of deep deterministic policy gradient algorithms by decoupling the transition batches used to train the Actor and the Critic. Our goal is to design an experience replay mechanism that provides appropriate learning signals to each component by using separate, tailored batches. Methods: We introduce Decoupled Prioritized Experience Replay (DPER), a novel approach that allows independent sampling of transition batches for the Actor and the Critic. DPER can be integrated into any off-policy deep reinforcement learning algorithm that operates in continuous control domains. We combine DPER with the state-of-the-art Twin Delayed DDPG algorithm and evaluate its performance across standard continuous control benchmarks. Results: DPER outperforms conventional experience replay strategies such as vanilla experience replay and prioritized experience replay in multiple MuJoCo tasks from the OpenAI Gym suite. Conclusions: Our findings show that decoupling experience replay for Actor and Critic networks can enhance training dynamics and final policy quality. DPER offers a generalizable mechanism that enhances performance for a wide class of actor-critic off-policy reinforcement learning algorithms.
- Abstract(参考訳): 背景:Deep Deterministic Policy Gradient-based reinforcement learning algorithm using Actor-Critic architectures, where both network are training using same batchs of replayed transitions。
しかし、アクターと批評家の学習目標と更新ダイナミクスは異なり、一様移行の利用が最適かどうかという懸念が持ち上がっている。
目的:我々は,アクタと批判の訓練に使用される遷移バッチを分離することで,決定論的ポリシー勾配アルゴリズムの性能を向上させることを目的としている。
私たちのゴールは、個別に調整されたバッチを使用して各コンポーネントに適切な学習信号を提供するエクスペリエンス再生メカニズムを設計することです。
Methods: Decoupled Prioritized Experience Replay (DPER)を導入し、アクターと批評家のためのトランジションバッチの独立したサンプリングを可能にする。
DPERは、継続的な制御ドメインで動作する、あらゆる非政治的な深層強化学習アルゴリズムに統合することができる。
DPER と最先端の Twin Delayed DDPG アルゴリズムを組み合わせて,その性能を標準連続制御ベンチマークで評価する。
結果: DPERは、OpenAI Gymスイートの複数の MuJoCo タスクにおいて、バニラエクスペリエンスリプレイや優先されたエクスペリエンスリプレイのような従来のエクスペリエンスリプレイ戦略よりも優れています。
結論: この結果から, アクターネットワークと批評家ネットワークの疎結合体験リプレイは, トレーニングのダイナミクスと最終方針の質を高めることが示唆された。
DPERは、幅広い種類のアクター-批判的非政治強化学習アルゴリズムのパフォーマンスを向上させる、一般化可能なメカニズムを提供する。
関連論文リスト
- Double Check My Desired Return: Transformer with Target Alignment for Offline Reinforcement Learning [64.6334337560557]
教師付き学習(RvS)による強化学習は、シーケンスモデリングタスクとしてオフラインRLをフレーム化する。
決定変換器(DT)は、実際の完了したリターンを特定のターゲットリターンと確実に整合させるのに苦労する。
そこで我々は,Offline RLの目標アライメントによる変換器の二重チェックを行う新しいアプローチであるDoctorを提案する。
論文 参考訳(メタデータ) (2025-08-22T14:30:53Z) - Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。
我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。
その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-06-02T17:28:26Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - Efficient Reinforcement Learning Through Adaptively Pretrained Visual Encoder [12.310140622800372]
APE:適応事前学習による効率的な強化学習を提案する。
APEは、事前学習期間中に適応的な拡張戦略を使用し、政策学習期間中にタスク環境内でほんのわずかの相互作用しか持たない一般化可能な特徴を抽出する。
その結果、DreamerV3やDrQ-v2といった主流のRL法は、APEを装着すると最先端の性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-02-08T12:57:02Z) - Reward Prediction Error Prioritisation in Experience Replay: The RPE-PER Method [1.600323605807673]
Reward Predictive Error Prioritised Experience Replay (RPE-PER)を紹介する。
RPE-PERは、RPEに基づいてバッファ内での経験を優先する。
本手法では,標準的な批評家ネットワークが生成するQ値に加えて,報酬を予測する批評家ネットワークであるEMCNを用いる。
論文 参考訳(メタデータ) (2025-01-30T02:09:35Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Actor Prioritized Experience Replay [0.0]
優先度付き体験再生(PER)では、エージェントは時間差誤差(TD)に比例した非一様確率でサンプリングされた遷移から学習することができる。
本稿では,アクター・クリティカルな手法に対する新しい経験リプレイ・サンプリング・フレームワークを紹介し,安定性の問題やPERの実証的性能の低下の背景にある最近の知見についても考察する。
我々の理論的主張を検証し、導入した手法が競合するアプローチを著しく上回ることを示した。
論文 参考訳(メタデータ) (2022-09-01T15:27:46Z) - Experience Replay with Likelihood-free Importance Weights [123.52005591531194]
本研究は,現在の政策の定常分布下での経験を生かし,その可能性に基づいて,その経験を再評価することを提案する。
提案手法は,ソフトアクタ批判 (SAC) とツイン遅延Deep Deterministic Policy gradient (TD3) の2つの競合手法に実証的に適用する。
論文 参考訳(メタデータ) (2020-06-23T17:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。