論文の概要: Solving Robotics Tasks with Prior Demonstration via Exploration-Efficient Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.04069v1
- Date: Thu, 04 Sep 2025 10:02:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.294465
- Title: Solving Robotics Tasks with Prior Demonstration via Exploration-Efficient Deep Reinforcement Learning
- Title(参考訳): 探索効率のよい深層強化学習によるロボットタスクの事前証明
- Authors: Chengyandan Shen, Christoffer Sloth,
- Abstract要約: 本稿では,実演を取り入れたロボットタスクの学習を目的とした,探索効率の高い深層強化学習と参照ポリシ(DRLR)フレームワークを提案する。
DRLRフレームワークはImitation Bootstrapped Reinforcement Learning (IBRL)と呼ばれるアルゴリズムに基づいて開発されている。
- 参考スコア(独自算出の注目度): 0.688204255655161
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes an exploration-efficient Deep Reinforcement Learning with Reference policy (DRLR) framework for learning robotics tasks that incorporates demonstrations. The DRLR framework is developed based on an algorithm called Imitation Bootstrapped Reinforcement Learning (IBRL). We propose to improve IBRL by modifying the action selection module. The proposed action selection module provides a calibrated Q-value, which mitigates the bootstrapping error that otherwise leads to inefficient exploration. Furthermore, to prevent the RL policy from converging to a sub-optimal policy, SAC is used as the RL policy instead of TD3. The effectiveness of our method in mitigating bootstrapping error and preventing overfitting is empirically validated by learning two robotics tasks: bucket loading and open drawer, which require extensive interactions with the environment. Simulation results also demonstrate the robustness of the DRLR framework across tasks with both low and high state-action dimensions, and varying demonstration qualities. To evaluate the developed framework on a real-world industrial robotics task, the bucket loading task is deployed on a real wheel loader. The sim2real results validate the successful deployment of the DRLR framework.
- Abstract(参考訳): 本稿では,実演を取り入れたロボットタスクの学習を目的とした,探索効率の高い深層強化学習と参照ポリシ(DRLR)フレームワークを提案する。
DRLRフレームワークはImitation Bootstrapped Reinforcement Learning (IBRL)と呼ばれるアルゴリズムに基づいて開発されている。
我々は,アクション選択モジュールを改良してIBRLを改善することを提案する。
提案したアクション選択モジュールは、非効率な探索につながるブートストラップ誤差を緩和する、キャリブレーションされたQ値を提供する。
さらに、RLポリシーが準最適ポリシーに収束しないように、SACはTD3の代わりにRLポリシーとして使用される。
本手法の有効性は,バケットローディングとオープンドローダという,環境との広範囲な相互作用を必要とする2つのロボティクスタスクを学習することで実証的に検証できる。
シミュレーションの結果、DRLRフレームワークが低次元と高次元の両方のタスクにまたがって堅牢であること、そして様々な実演特性を示す。
実世界の産業ロボティクスタスクにおける開発フレームワークを評価するため、バケットローディングタスクを実輪ローダに展開する。
sim2realの結果は、DRLRフレームワークのデプロイが成功したことを検証する。
関連論文リスト
- Modulating Reservoir Dynamics via Reinforcement Learning for Efficient Robot Skill Synthesis [0.0]
貯水池と呼ばれるランダムなリカレントニューラルネットワークは、コンテキスト入力で条件付けられたロボットの動きを学習するために使用することができる。
本稿では,新しいRCベースのLearning from Demonstration(LfD)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-17T07:25:54Z) - MENTOR: Mixture-of-Experts Network with Task-Oriented Perturbation for Visual Reinforcement Learning [17.437573206368494]
視覚深部強化学習(RL)は、ロボットが非構造化タスクの視覚入力からスキルを習得することを可能にする。
本稿では,RLエージェントのアーキテクチャと最適化の両方を改善する手法であるMENTORを提案する。
MenTORは3つのシミュレーションベンチマークで最先端の手法を上回り、挑戦的な3つの現実世界のロボット操作タスクで平均83%の成功率を達成した。
論文 参考訳(メタデータ) (2024-10-19T04:31:54Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement Learning [82.46975428739329]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Verifying Learning-Based Robotic Navigation Systems [61.01217374879221]
有効モデル選択に現代検証エンジンをどのように利用できるかを示す。
具体的には、検証を使用して、最適下行動を示す可能性のあるポリシーを検出し、除外する。
我々の研究は、現実世界のロボットにおける準最適DRLポリシーを認識するための検証バックエンドの使用を初めて実証したものである。
論文 参考訳(メタデータ) (2022-05-26T17:56:43Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Learning of Parameters in Behavior Trees for Movement Skills [0.9562145896371784]
振舞い木(BT)は、モジュラーと構成可能なスキルをサポートするポリシー表現を提供することができる。
本稿では,BTポリシーのパラメータをシミュレーションで学習し,追加のトレーニングを伴わずに物理ロボットに一般化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-27T13:46:39Z) - Reinforcement Learning for Robust Missile Autopilot Design [0.0]
この研究は、飛行制御のフレームワークとして強化学習を提案する先駆者である。
TRPOの手法では、収集されたエクスペリエンスはHERに従って拡張され、リプレイバッファに格納され、その重要性に応じてサンプリングされる。
その結果、最適な性能を達成し、不確実性に対するエージェントの堅牢性を改善することが可能であることがわかった。
論文 参考訳(メタデータ) (2020-11-26T09:30:04Z) - Learning Off-Policy with Online Planning [18.63424441772675]
本研究では,学習モデルと端末値関数を用いたHステップルックアヘッドの新たなインスタンス化について検討する。
ナビゲーション環境の集合に配置する際の安全性制約を組み込むLOOPの柔軟性を示す。
論文 参考訳(メタデータ) (2020-08-23T16:18:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。