論文の概要: Actor-Critic for Continuous Action Chunks: A Reinforcement Learning Framework for Long-Horizon Robotic Manipulation with Sparse Reward
- arxiv url: http://arxiv.org/abs/2508.11143v1
- Date: Fri, 15 Aug 2025 01:27:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.70539
- Title: Actor-Critic for Continuous Action Chunks: A Reinforcement Learning Framework for Long-Horizon Robotic Manipulation with Sparse Reward
- Title(参考訳): 連続行動チャンクのためのアクター・クリティカル:スパース・リワードを用いた長軸ロボットマニピュレーションのための強化学習フレームワーク
- Authors: Jiarui Yang, Bin Zhu, Jingjing Chen, Yu-Gang Jiang,
- Abstract要約: 本稿では,高次元連続行動系列を生成するための新しいRLフレームワークであるAC3(Actor-Critic for Continuous Chunks)を紹介する。
この学習プロセスを安定させ、データ効率を高めるため、AC3はアクターと批評家の両方に目標安定化機構を組み込む。
- 参考スコア(独自算出の注目度): 85.84943447589511
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing reinforcement learning (RL) methods struggle with long-horizon robotic manipulation tasks, particularly those involving sparse rewards. While action chunking is a promising paradigm for robotic manipulation, using RL to directly learn continuous action chunks in a stable and data-efficient manner remains a critical challenge. This paper introduces AC3 (Actor-Critic for Continuous Chunks), a novel RL framework that learns to generate high-dimensional, continuous action sequences. To make this learning process stable and data-efficient, AC3 incorporates targeted stabilization mechanisms for both the actor and the critic. First, to ensure reliable policy improvement, the actor is trained with an asymmetric update rule, learning exclusively from successful trajectories. Second, to enable effective value learning despite sparse rewards, the critic's update is stabilized using intra-chunk $n$-step returns and further enriched by a self-supervised module providing intrinsic rewards at anchor points aligned with each action chunk. We conducted extensive experiments on 25 tasks from the BiGym and RLBench benchmarks. Results show that by using only a few demonstrations and a simple model architecture, AC3 achieves superior success rates on most tasks, validating its effective design.
- Abstract(参考訳): 既存の強化学習(RL)手法は、特にスパース報酬を含む長い水平ロボット操作タスクに苦労する。
アクションチャンキングはロボット操作において有望なパラダイムであるが、連続的なアクションチャンクを直接、安定的でデータ効率のよい方法で学習するためにRLを使用することは、依然として重要な課題である。
本稿では,高次元連続行動系列を生成するための新しいRLフレームワークであるAC3(Actor-Critic for Continuous Chunks)を紹介する。
この学習プロセスを安定させ、データ効率を高めるため、AC3はアクターと批評家の両方に目標安定化機構を組み込む。
第一に、信頼性の高いポリシー改善を保証するため、アクターは非対称な更新ルールでトレーニングされ、成功した軌道からのみ学習される。
第二に、スパース報酬にもかかわらず効果的な価値学習を可能にするために、批評家の更新は、チャンク内$n$-stepリターンを使用して安定化され、各アクションチャンクに一致したアンカーポイントに固有の報酬を提供する自己教師付きモジュールによってさらに強化される。
BiGymおよびRLBenchベンチマークから25のタスクについて広範な実験を行った。
結果から,いくつかの実演とシンプルなモデルアーキテクチャを用いることで,ほとんどのタスクにおいて良好な成功率を達成し,その効果的な設計を検証できることが示唆された。
関連論文リスト
- Coarse-to-fine Q-Network with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する,新しい値に基づく強化学習アルゴリズムを提案する。
実験により、CQN-ASは、様々なスパース逆ヒューマノイド制御およびテーブルトップ操作タスクにおいて、いくつかのベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - MENTOR: Mixture-of-Experts Network with Task-Oriented Perturbation for Visual Reinforcement Learning [17.437573206368494]
視覚深部強化学習(RL)は、ロボットが非構造化タスクの視覚入力からスキルを習得することを可能にする。
本稿では,RLエージェントのアーキテクチャと最適化の両方を改善する手法であるMENTORを提案する。
MenTORは3つのシミュレーションベンチマークで最先端の手法を上回り、挑戦的な3つの現実世界のロボット操作タスクで平均83%の成功率を達成した。
論文 参考訳(メタデータ) (2024-10-19T04:31:54Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILe(Reinforced Learning)は、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - Reinforcement Learning for Robust Missile Autopilot Design [0.0]
この研究は、飛行制御のフレームワークとして強化学習を提案する先駆者である。
TRPOの手法では、収集されたエクスペリエンスはHERに従って拡張され、リプレイバッファに格納され、その重要性に応じてサンプリングされる。
その結果、最適な性能を達成し、不確実性に対するエージェントの堅牢性を改善することが可能であることがわかった。
論文 参考訳(メタデータ) (2020-11-26T09:30:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。