論文の概要: Back-stepping Experience Replay with Application to Model-free
Reinforcement Learning for a Soft Snake Robot
- arxiv url: http://arxiv.org/abs/2401.11372v1
- Date: Sun, 21 Jan 2024 02:17:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 16:41:47.731550
- Title: Back-stepping Experience Replay with Application to Model-free
Reinforcement Learning for a Soft Snake Robot
- Title(参考訳): ソフトスネークロボットのバックステップ体験リプレイとモデルフリー強化学習への応用
- Authors: Xinda Qi, Dong Chen, Zhaojian Li, Xiaobo Tan
- Abstract要約: Back-stepping Experience Replay (BER)は、任意の外部強化学習アルゴリズムと互換性がある。
柔らかいヘビロボットの移動とナビゲーションのためのモデルレスRLアプローチにおけるBERの適用について述べる。
- 参考スコア(独自算出の注目度): 16.392935637858546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel technique, Back-stepping Experience Replay
(BER), that is compatible with arbitrary off-policy reinforcement learning (RL)
algorithms. BER aims to enhance learning efficiency in systems with approximate
reversibility, reducing the need for complex reward shaping. The method
constructs reversed trajectories using back-stepping transitions to reach
random or fixed targets. Interpretable as a bi-directional approach, BER
addresses inaccuracies in back-stepping transitions through a distillation of
the replay experience during learning. Given the intricate nature of soft
robots and their complex interactions with environments, we present an
application of BER in a model-free RL approach for the locomotion and
navigation of a soft snake robot, which is capable of serpentine motion enabled
by anisotropic friction between the body and ground. In addition, a dynamic
simulator is developed to assess the effectiveness and efficiency of the BER
algorithm, in which the robot demonstrates successful learning (reaching a 100%
success rate) and adeptly reaches random targets, achieving an average speed
48% faster than that of the best baseline approach.
- Abstract(参考訳): 本稿では,任意のオフポリシー強化学習(rl)アルゴリズムと互換性のある新しい手法であるback-stepping experience replay (ber)を提案する。
BERは、近似可逆性を持つシステムの学習効率を高め、複雑な報酬形成の必要性を減らすことを目的としている。
この手法は、バックステッピング遷移を用いて逆軌道を構築し、ランダムまたは固定された目標に達する。
双方向のアプローチとして解釈可能なberは、学習中のリプレイ体験の蒸留によるバックステップ遷移の不正確さに対処する。
ソフトヘビロボットの複雑な性質と環境との複雑な相互作用を考慮し,体と地面の異方性摩擦によりセルペンチン運動を可能としたソフトヘビロボットの移動・ナビゲーションのためのモデルフリーRLアプローチにBERを適用した。
さらに、BERアルゴリズムの有効性と効率を評価するために、ロボットが学習を成功させ(100%の成功率を得る)、ランダムな目標に達し、最高のベースラインアプローチよりも平均速度が48%速くなるように、動的シミュレータを開発した。
関連論文リスト
- Modulating Reservoir Dynamics via Reinforcement Learning for Efficient Robot Skill Synthesis [0.0]
貯水池と呼ばれるランダムなリカレントニューラルネットワークは、コンテキスト入力で条件付けられたロボットの動きを学習するために使用することができる。
本稿では,新しいRCベースのLearning from Demonstration(LfD)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-17T07:25:54Z) - Multi-Objective Algorithms for Learning Open-Ended Robotic Problems [1.0124625066746598]
四足歩行は、自動運転車の普及に不可欠な複雑でオープンな問題である。
従来の強化学習アプローチは、トレーニングの不安定性とサンプルの非効率のため、しばしば不足する。
自動カリキュラム学習機構として多目的進化アルゴリズムを活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-11T16:26:42Z) - Research on Autonomous Robots Navigation based on Reinforcement Learning [13.559881645869632]
我々は、経路計画と意思決定プロセスを最適化するために、Deep Q Network (DQN) と Proximal Policy Optimization (PPO) モデルを使用します。
様々な複雑なシナリオにおいて,これらのモデルの有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2024-07-02T00:44:06Z) - Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。
我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文 参考訳(メタデータ) (2024-03-21T11:54:45Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous
Manipulation [61.7171775202833]
本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。
我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。
本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
論文 参考訳(メタデータ) (2023-09-06T19:05:31Z) - Learning Bipedal Walking for Humanoids with Current Feedback [5.429166905724048]
アクチュエータレベルでの不正確なトルクトラッキングから生じるヒューマノイドロボットのシム2リアルギャップ問題を克服するためのアプローチを提案する。
提案手法は、実際のHRP-5Pヒューマノイドロボットに展開して二足歩行を実現するシミュレーションにおいて、一貫したエンドツーエンドのポリシーをトレーニングする。
論文 参考訳(メタデータ) (2023-03-07T08:16:46Z) - Active Predicting Coding: Brain-Inspired Reinforcement Learning for
Sparse Reward Robotic Control Problems [79.07468367923619]
ニューラルジェネレーティブ・コーディング(NGC)の神経認知計算フレームワークによるロボット制御へのバックプロパゲーションフリーアプローチを提案する。
我々は、スパース報酬から動的オンライン学習を容易にする強力な予測符号化/処理回路から完全に構築されたエージェントを設計する。
提案するActPCエージェントは,スパース(外部)報酬信号に対して良好に動作し,複数の強力なバックプロップベースのRLアプローチと競合し,性能が優れていることを示す。
論文 参考訳(メタデータ) (2022-09-19T16:49:32Z) - Real-to-Sim: Predicting Residual Errors of Robotic Systems with Sparse
Data using a Learning-based Unscented Kalman Filter [65.93205328894608]
我々は,動的・シミュレータモデルと実ロボット間の残差を学習する。
学習した残差誤差により、動的モデル、シミュレーション、および実際のハードウェア間の現実的ギャップをさらに埋めることができることを示す。
論文 参考訳(メタデータ) (2022-09-07T15:15:12Z) - Model Predictive Actor-Critic: Accelerating Robot Skill Acquisition with
Deep Reinforcement Learning [42.525696463089794]
Model Predictive Actor-Critic (MoPAC)は、モデル予測ロールアウトとポリシー最適化を組み合わせてモデルバイアスを軽減するハイブリッドモデルベース/モデルフリーメソッドである。
MoPACは最適なスキル学習を近似誤差まで保証し、環境との物理的相互作用を減らす。
論文 参考訳(メタデータ) (2021-03-25T13:50:24Z) - Online Body Schema Adaptation through Cost-Sensitive Active Learning [63.84207660737483]
この作業は、icubロボットシミュレータの7dofアームを使用して、シミュレーション環境で実行された。
コストに敏感な能動学習手法は最適な関節構成を選択するために用いられる。
その結果,コスト依存型能動学習は標準的な能動学習手法と同等の精度を示し,実行運動の約半分を減らした。
論文 参考訳(メタデータ) (2021-01-26T16:01:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。