論文の概要: D-SPEAR: Dual-Stream Prioritized Experience Adaptive Replay for Stable Reinforcement Learninging Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2603.27346v1
- Date: Sat, 28 Mar 2026 17:34:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.914977
- Title: D-SPEAR: Dual-Stream Prioritized Experience Adaptive Replay for Stable Reinforcement Learninging Robotic Manipulation
- Title(参考訳): D-SPEAR:ロボットマニピュレーションによる安定強化学習のためのデュアルストリーム優先体験適応リプレイ
- Authors: Yu Zhang, Karl Mason,
- Abstract要約: D-SPEARは、共有リプレイバッファを維持しながらアクターと批評家のサンプリングを分離するリプレイフレームワークである。
我々は,ブロックリフティングやドアオープンを含むロボスーツベンチマークから,ロボット操作の課題に対するD-SPEARの評価を行った。
- 参考スコア(独自算出の注目度): 4.39988340059705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robotic manipulation remains challenging for reinforcement learning due to contact-rich dynamics, long horizons, and training instability. Although off-policy actor-critic algorithms such as SAC and TD3 perform well in simulation, they often suffer from policy oscillations and performance collapse in realistic settings, partly due to experience replay strategies that ignore the differing data requirements of the actor and the critic. We propose D-SPEAR: Dual-Stream Prioritized Experience Adaptive Replay, a replay framework that decouples actor and critic sampling while maintaining a shared replay buffer. The critic leverages prioritized replay for efficient value learning, whereas the actor is updated using low-error transitions to stabilize policy optimization. An adaptive anchor mechanism balances uniform and prioritized sampling based on the coefficient of variation of TD errors, and a Huber-based critic objective further improves robustness under heterogeneous reward scales. We evaluate D-SPEAR on challenging robotic manipulation tasks from the robosuite benchmark, including Block-Lifting and Door-Opening. Results demonstrate that D-SPEAR consistently outperforms strong off-policy baselines, including SAC, TD3, and DDPG, in both final performance and training stability, with ablation studies confirming the complementary roles of the actorside and critic-side replay streams.
- Abstract(参考訳): ロボット操作は、コンタクトリッチなダイナミクス、長い地平線、トレーニング不安定性により、強化学習において依然として困難である。
SACやTD3のような非政治的なアクター批判アルゴリズムはシミュレーションではうまく機能するが、アクターと批評家の異なるデータ要求を無視した経験的なリプレイ戦略のために、現実的な環境ではポリシーの振動やパフォーマンスの崩壊に悩まされることが多い。
本稿では,D-SPEAR: Dual-Stream Prioritized Experience Adaptive Replayを提案する。
批評家は優先順位付けされたリプレイを効果的な価値学習に利用し、アクターは低エラー遷移を使用してポリシー最適化を安定化する。
適応アンカー機構は、TD誤差の変動係数に基づいて均一かつ優先順位付けされたサンプリングのバランスを保ち、ハマーに基づく批判目的は、不均一な報酬スケール下でのロバスト性をさらに向上させる。
我々は,ブロックリフティングやドアオープンを含むロボスーツベンチマークから,ロボット操作の課題に対するD-SPEARの評価を行った。
以上の結果から, D-SPEARは, SAC, TD3, DDPGなど, 最終的なパフォーマンスおよびトレーニングの安定性において, 強い非政治的基盤線を一貫して上回り, アクター側と批評家側のリプレイストリームの相補的役割を検証した。
関連論文リスト
- Proximal Action Replacement for Behavior Cloning Actor-Critic in Offline Reinforcement Learning [22.17044827069627]
安定なアクターによって生成される高価値なアクションに置き換える,プラグアンドプレイのトレーニングサンプル置換器を提案する。
実験の結果、PARはパフォーマンスを継続的に改善し、基礎的なTD3+BCと組み合わせることで最先端にアプローチすることがわかった。
論文 参考訳(メタデータ) (2026-02-07T08:44:27Z) - Enhancing Deep Deterministic Policy Gradients on Continuous Control Tasks with Decoupled Prioritized Experience Replay [3.716862357836751]
Decoupled Prioritized Experience Replay (DPER)は、遷移バッチの独立したサンプリングを可能にする新しいアプローチである。
DPERは、継続的な制御ドメインで動作する、あらゆる非政治的な深層強化学習アルゴリズムに統合することができる。
論文 参考訳(メタデータ) (2025-12-04T23:37:29Z) - Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - Actor-Critic for Continuous Action Chunks: A Reinforcement Learning Framework for Long-Horizon Robotic Manipulation with Sparse Reward [85.84943447589511]
本稿では,高次元連続行動系列を生成するための新しいRLフレームワークであるAC3(Actor-Critic for Continuous Chunks)を紹介する。
この学習プロセスを安定させ、データ効率を高めるため、AC3はアクターと批評家の両方に目標安定化機構を組み込む。
論文 参考訳(メタデータ) (2025-08-15T01:27:15Z) - Revisiting Plasticity in Visual Reinforcement Learning: Data, Modules and Training Stages [56.98243487769916]
ニューラルネットワークが新しいデータで進化する能力である塑性は、高性能でサンプル効率のよい視覚強化学習に不可欠である。
本稿では,批評家の可塑性レベルに基づいてリプレイ率を動的に調整するAdaptive RRを提案する。
論文 参考訳(メタデータ) (2023-10-11T12:05:34Z) - Distributional Soft Actor-Critic with Three Refinements [47.46661939652862]
強化学習(Reinforcement Learning, RL)は、複雑な意思決定と制御タスクの解決に顕著な成功を収めた。
多くのモデルなしRLアルゴリズムは、不正確な値推定による性能劣化を経験する。
本稿では,これらの制限を克服し,Q値推定精度を向上させるために,DSACv1に3つの重要な改良点を導入する。
論文 参考訳(メタデータ) (2023-10-09T16:52:48Z) - PAC-Bayesian Soft Actor-Critic Learning [9.752336113724928]
アクター批判アルゴリズムは、強化学習(RL)と政策評価と2つの関数近似器による改善という2つの目標に対処する。
我々は,このボトルネックに,Soft Actor-Critic (SAC) アルゴリズムの批判的トレーニング目標として,既存の確率的近似(PAC)ベイズ境界を初めて採用することによって対処する。
論文 参考訳(メタデータ) (2023-01-30T10:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。