論文の概要: Deep Reinforcement Learning with a Stage Incentive Mechanism of Dense
Reward for Robotic Trajectory Planning
- arxiv url: http://arxiv.org/abs/2009.12068v2
- Date: Sun, 23 May 2021 04:55:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 22:40:35.360672
- Title: Deep Reinforcement Learning with a Stage Incentive Mechanism of Dense
Reward for Robotic Trajectory Planning
- Title(参考訳): ロボット軌道計画のためのDense Rewardの段階的インセンティブメカニズムによる深層強化学習
- Authors: Gang Peng, Jin Yang, Xinde Lia, Mohammad Omar Khyam
- Abstract要約: 本稿では,DRLに基づくロボットマニピュレータ軌道計画の効率化を目的とした3つの報酬関数を提案する。
より合理的な軌道で学習プロセスを高速化する姿勢報酬関数を提案する。
学習過程の安定性を向上させるために,ストライド報酬関数を提案する。
- 参考スコア(独自算出の注目度): 3.0242753679068466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: (This work has been submitted to the IEEE for possible publication. Copyright
may be transferred without notice, after which this version may no longer be
accessible.)
To improve the efficiency of deep reinforcement learning (DRL)-based methods
for robot manipulator trajectory planning in random working environments, we
present three dense reward functions. These rewards differ from the traditional
sparse reward. First, a posture reward function is proposed to speed up the
learning process with a more reasonable trajectory by modeling the distance and
direction constraints, which can reduce the blindness of exploration. Second, a
stride reward function is proposed to improve the stability of the learning
process by modeling the distance and movement distance of joint constraints.
Finally, in order to further improve learning efficiency, we are inspired by
the cognitive process of human behavior and propose a stage incentive
mechanism, including a hard stage incentive reward function and a soft stage
incentive reward function. Extensive experiments show that the soft stage
incentive reward function is able to improve the convergence rate by up to
46.9% with the state-of-the-art DRL methods. The percentage increase in the
convergence mean reward was 4.4-15.5% and the percentage decreases with respect
to standard deviation were 21.9-63.2%. In the evaluation experiments, the
success rate of trajectory planning for a robot manipulator reached 99.6%.
- Abstract(参考訳): (本研究は, IEEEに提出される可能性があり, 著作権は無通知で伝達され, その後, このバージョンはもはやアクセスできない。) ランダムな作業環境下でのロボットマニピュレータ軌道計画のための深部強化学習法(DRL)の効率化を図るため, 3つの高密度報酬関数を提示する。
これらの報酬は従来のスパース報酬とは異なる。
まず,距離と方向の制約をモデル化することにより,学習過程をより合理的な軌道で高速化し,探索の盲点を低減できる姿勢報酬関数を提案する。
次に,協調制約の距離と移動距離をモデル化し,学習プロセスの安定性を向上させるためのストライド報酬関数を提案する。
最後に、学習効率をさらに向上させるために、人間の行動の認知過程に着想を得て、ハードステージインセンティブ報酬機能とソフトステージインセンティブ報酬機能を含むステージインセンティブメカニズムを提案する。
大規模な実験により、ソフトステージインセンティブ報酬関数は最先端のDRL法で最大46.9%の収束率を向上できることが示された。
収束平均報酬の比率は4.4-15.5%であり、標準偏差に対する割合は21.9-63.2%である。
評価実験では、ロボットマニピュレータの軌道計画の成功率は99.6%に達した。
関連論文リスト
- Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。
自然言語記述によって指定された実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、20Kのオンライン微調整ステップでタスク完了を成功させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - Auxiliary Reward Generation with Transition Distance Representation
Learning [20.150691753213817]
強化学習(RL)は、逐次意思決定問題に挑戦する上で、その強みを示している。
RLの報酬関数は、タスク完了度合いの尺度として機能するため、学習性能に不可欠である。
状態間の遷移距離を計測できる新しい表現学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-12T05:13:44Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z) - Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z) - Reinforcement Learning for Robust Missile Autopilot Design [0.0]
この研究は、飛行制御のフレームワークとして強化学習を提案する先駆者である。
TRPOの手法では、収集されたエクスペリエンスはHERに従って拡張され、リプレイバッファに格納され、その重要性に応じてサンプリングされる。
その結果、最適な性能を達成し、不確実性に対するエージェントの堅牢性を改善することが可能であることがわかった。
論文 参考訳(メタデータ) (2020-11-26T09:30:04Z) - Reward Conditioned Neural Movement Primitives for Population Based
Variational Policy Optimization [4.559353193715442]
本稿では,教師あり学習における報酬に基づく政策探索問題について考察する。
本手法は, 最先端のロボット強化学習法と比較して, 学習の進歩と, サンプル効率の大幅な向上を図っている。
論文 参考訳(メタデータ) (2020-11-09T09:53:37Z) - Learning to Plan Optimistically: Uncertainty-Guided Deep Exploration via
Latent Model Ensembles [73.15950858151594]
本稿では,不確実な長期報酬に直面した最適化による深層探査を可能にするLOVE(Latent Optimistic Value Exploration)を提案する。
潜在世界モデルと値関数推定を組み合わせ、無限水平リターンを予測し、アンサンブルにより関連する不確実性を回復する。
連続行動空間における視覚ロボット制御タスクにLOVEを適用し、最先端や他の探査目標と比較して、平均20%以上のサンプル効率の改善を実証する。
論文 参考訳(メタデータ) (2020-10-27T22:06:57Z) - Balance Between Efficient and Effective Learning: Dense2Sparse Reward
Shaping for Robot Manipulation with Environment Uncertainty [14.178202899299267]
本稿では,Dense2Sparseという,シンプルだが強力な報酬形成手法を提案する。
これは、密集報酬の高速収束とスパース報酬のノイズ分離の利点を組み合わせて、学習効率と効果のバランスをとる。
実験の結果,Dense2Sparse法は,スタンドアローンの高密度報酬やスパース報酬に比べて高い期待報酬を得た。
論文 参考訳(メタデータ) (2020-03-05T16:10:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。